KI hat die Sprachverarbeitung revolutioniert und sie für komplexe linguistische Aufgaben äußerst leistungsfähig gemacht. Aber was ist mit Gebärdensprache? Für die Gehörlosengemeinschaft könnte sie ein echter Wendepunkt sein – indem sie Gebärden interpretiert, Kommunikationsbarrieren überwindet und Menschen mit unterschiedlichen Gebärdensprachen und Dialekten verbindet. Das Potenzial ist faszinierend, aber auch herausfordernd.

Verbindung zwischen Gehörlosen und Hörenden: Kommunikationsbarrieren mit KI überbrücken
KI erleichtert bereits die Kommunikation zwischen Gehörlosen und Hörenden. Tools wie Sprache-zu-Text-Apps transkribieren gesprochene Worte in Echtzeit, während Text-zu-Sprache-Technologien es Gehörlosen ermöglichen, schriftliche Nachrichten in Audio umzuwandeln.
Wearables wie smarte Handschuhe und Sensoren übersetzen Gebärdensprache in Text oder Sprache und verbessern die unabhängige Kommunikation. Sie können Gehörlose auch auf Geräusche, etwa Sirenen, über visuelle oder taktile Signale aufmerksam machen. Allerdings befinden sich viele dieser Projekte und Produkte noch in der Entwicklungsphase. Zukünftige Innovationen – etwa KI in Smartwatches oder AR-Brillen – könnten die Kommunikation noch nahtloser gestalten, ohne dass Smartphones erforderlich sind.
KI als Brücke zwischen verschiedenen Gebärdensprachen
KI könnte auch die Kommunikation zwischen Gehörlosen erleichtern, die unterschiedliche Gebärdensprachen oder Dialekte verwenden. Weltweit existieren Hunderte von Gebärdensprachen, jede mit eigener Grammatik und Ausdrucksweise – was den Austausch über Sprachgrenzen hinweg erschwert. KI könnte helfen, Gehörlose besser mit Freunden und Familie im Ausland zu verbinden oder die Beziehungen zu Gehörlosengemeinschaften in anderen Regionen zu stärken.
Herausforderungen und Barrieren
Obwohl das Potenzial enorm ist, bleibt die Entwicklung von Übersetzungstools für Gebärdensprachen und gebärdensprachübergreifende Kommunikation eine große Herausforderung. Gebärdensprachen bestehen nicht nur aus Handbewegungen – Mimik, Körperhaltung und räumliche Grammatik sind ebenso entscheidend und müssen von KI-Systemen präzise interpretiert werden. Die Schwierigkeit steigt zusätzlich durch dialektale Variationen innerhalb einer einzelnen Gebärdensprache.
Ein weiteres Problem ist der Mangel an vielfältigen Datensätzen. Eine Studie aus dem Jahr 2024 von Franklin Open beschreibt dieses Problem detailliert und hebt vielversprechende Fortschritte hervor. Die Studie konzentriert sich auf die Erkennung des ASL-Alphabets (Amerikanische Gebärdensprache) mithilfe von Computer Vision, unter Verwendung von MediaPipe (einem Open-Source-Framework von Google) zur Handbewegungsverfolgung sowie dem YOLOv8-Algorithmus für das Training eines Deep-Learning-Modells.
Das unten gezeigte Bild illustriert, wie MediaPipe 21 markante Punkte der Hand im Datensatz kennzeichnete, um die Erkennungsgenauigkeit während des YOLOv8-Trainings zu verbessern. Ergänzt wurde dies durch die Integration von fast 30.000 Bildern von ASL-Gebärden, die unter verschiedenen Licht- und Hintergrundbedingungen aufgenommen wurden. Das Modell zeigte beeindruckende Leistungswerte: 98 % Präzision, 98 % Recall, 99 % F1-Score, 98 % mAP (Mean Average Precision), 93 % mAP50-95.

Viele Kommunikationswerkzeuge für Gehörlose werden von hörenden Menschen entwickelt, wodurch Interaktionen oft unnatürlich oder unzureichend wirken. Um praxisnahe Einblicke zu erhalten, haben wir mit Doreen Halbesma, die seit ihrer Geburt gehörlos ist und ein aktives Mitglied der Gehörlosengemeinschaft in Kanada, gesprochen.
Sie betont, dass hörende Menschen oft Werkzeuge entwickeln, die es ihnen ermöglichen, ihre eigene Botschaft effektiv an Gehörlose zu übermitteln, jedoch nicht umgekehrt. Halbesma unterstreicht, wie entscheidend es ist, gehörlose Menschen direkt in den Entwicklungsprozess einzubeziehen.
Ein weiteres Hindernis sei der hohe Preis innovativer Technologien, wodurch der Zugang für viele Gehörlose erschwert würde. Die Bereitstellung erschwinglicher Produkte sei daher essenziell.
Fortschritte in der Medienzugänglichkeit
Bei PANTA RHAI stehen Medien und KI im Mittelpunkt unserer Arbeit. Ein bedeutender Fortschritt sind KI-generierte Live-Untertitel auf Plattformen wie YouTube, TikTok und Instagram, die es Gehörlosen ermöglichen, Videos und Livestreams in Echtzeit zu verfolgen und somit eine inklusivere digitale Erfahrung schaffen.
Auch die Medienbranche verbessert sich zunehmend durch die Einbindung von Gebärdensprachdolmetschern in Live-Sendungen, beispielsweise bei wichtigen Veranstaltungen oder Regierungsankündigungen. Einige Streaming-Dienste experimentieren sogar mit KI-gesteuerten Gebärdensprach-Avataren.
Trotz dieser Fortschritte bestehen weiterhin Herausforderungen: KI-gestützte Gebärdensprachübersetzer werden für ihre ungenauen Übersetzungen kritisiert, da sie oft die nuancierten Mimik- und Gestikelemente sowie kulturelle Kontexte nicht erfassen. Schnelllebige Gesprächssituationen – wie Podiumsdiskussionen oder hitzige Debatten – erschweren es Gehörlosen, dem Gespräch zu folgen, selbst mit Untertiteln. KI-Systeme müssen weiter verbessert werden, um Sprecherwechsel korrekt zu identifizieren, den Gesprächsfluss aufrechtzuerhalten und den Kontext angemessen darzustellen.
Während Live-Untertitel zunehmend verfügbar sind, variiert deren Genauigkeit stark je nach Plattform und KI-Qualität. Selbst kleinere Transkriptionsfehler können für Gehörlose Missverständnisse oder unvollständigen Zugang zu Inhalten bedeuten.
Die Rolle von KI bei der Förderung menschlicher Verbindungen
Trotz aller Herausforderungen bietet KI das Potenzial, Gebärdensprachen präzise zu übersetzen und dadurch menschliche Verbindungen zu stärken – sowohl innerhalb der Gehörlosengemeinschaft als auch im Austausch zwischen Gehörlosen und Hörenden.
Eine enge Zusammenarbeit mit Linguisten, Gehörlosenorganisationen und Gehörlosengemeinschaften wird entscheidend sein, um sicherzustellen, dass diese Werkzeuge nicht nur Kommunikationsbarrieren abbauen, sondern auch ein tieferes Verständnis und mehr Inklusion fördern.