Wie die Spracherkennung Ihrer Meetings funktioniert

Was ist Ihrer Meinung nach einfacher – ein Spracherkennungsprogramm für Piloten eines Düsenjets zu entwickeln oder die automatische Transkription eines Meetings zwischen Kollegen? Die Antwort wird Sie eventuell überraschen.
Von
Neue Technologie, die Meetings transkribiert

 
Wenn Sie in den 1990er Jahren jemandem erzählt hätten, Ihr Unternehmen arbeite an einem Spracherkennungsprogramm für Piloten eines Düsenjets, wäre die unvermeidliche Antwort gewesen: „Echt? Das muss aber wegen der ganzen Störgeräusche schwierig sein.“ Sie hätten gesagt: „Nun, ja und nein.“ Ja, ein Düsenjet erzeugt Lärm, aber dieser ist vorherseh- und berechenbar. Diese „stationären“ Störungen lassen sich ziemlich zuverlässig herausfiltern. Außerdem befindet sich das Mikrofon immer in derselben Position in direkter Nähe des Piloten. Tatsächlich stellt sich das Ganze also als einfacher heraus als man zunächst dachte.

Das Gegenteil kann aber ebenso zutreffen: Etwas scheinbar Einfaches ist in der Realität schwieriger. Menschen, die ein Spracherkennungsprogramm für die automatische Transkription eines Meetings nutzen wollen, gehen von einer einfachen Aufgabe aus. In der Praxis aber kann die Aufzeichnung eines Meetings schwierig sein.

Für die automatische Transkription müssen eine Reihe von Variablen berücksichtigt werden. Zuerst muss festgestellt werden, wer wo spricht. Konferenzräume sind häufig mit mehreren Mikrofonen ausgestattet und die möglichen Sprecher können um diese herum verteilt sein. Darin eingeschlossen sind Situationen, in denen Sprecher relativ weit vom nächsten Mikrofon entfernt sind und somit auch ein Echoproblem besteht. Zunächst ist nicht bekannt, wer das Wort in welcher Position zum Mikrofon ergreifen wird. Nach der Orientierung fokussiert sich das System ausschließlich auf den aktiven Sprecher. Gleichzeitig arbeitet es an der Filterung von Hintergrundgeräuschen.  Menschen filtern solche Hintergrundgeräusche automatisch aus, ohne viel darüber nachzudenken. Besser bekannt als der Cocktailparty-Effekt. In einem Umfeld, in dem mehrere Mikrofone verfügbar sind, können wir diese Fähigkeit durch die Anwendung einer Richtmikrofontechnik nachstellen, wie sie auch im Auto- und Home-Umfeld angewendet wird.

Damit verbunden ist die Aufgabe der Unterscheidung zwischen mehreren Sprechern, da diese mit der Zeit wechseln können. Das heißt auch, dass das Richtmikrofon ständig neu ausgerichtet werden muss. Wir lösen diese Aufgabe durch Sprechertrennung („Speaker Diarization“) bzw. das Sortieren von Sprache in Redner-Körbe („Speaker Buckets“). Ein hilfreicher Trick ist die Verwendung von Sprachbiometrie. Obwohl deren Hauptverwendungszweck, ähnlich wie bei einem Passwort, die Authentifizierung einer Person ist, kann sie genauso gut zur Identifizierung eines Sprechers in einer Gruppe eingesetzt werden. Zusätzlich kann dann auch die Sprache jedes einzelnen Sprechers genutzt werden, um deren Eigenheiten durch Adaptation besser in den Spracherkennungsmodellen zu reflektieren. Ähnlich machen wir es mit unserer Dragon Diktiersoftware.

Selbstverständlich kann es auch vorkommen, dass mehrere Sprecher gleichzeitig reden. Zwar halten sich Menschen an bestimmte Gesprächsregeln und wissen meistens genau, wann es ein guter Zeitpunkt ist, um das Wort zu ergreifen, dennoch gelingt das nicht immer einwandfrei. Nicht selten reden mehrere Menschen bei einem Meeting durcheinander. Diese Überschneidung von Sprache ist die nächste Herausforderung, die bei der Entwicklung einer solchen Spracherkennungssoftware auftritt. Dabei kann wieder die Nutzung mehrere Mikrofone Abhilfe schaffen.

Weiß man schließlich, wer wann spricht, können wir die eigentliche Aufgabe in Angriff nehmen: die Anwendung der Spracherkennung. Damit verbunden ist eine weitere Variable. Häufig wissen die Entwickler des Spracherkennungssystems nicht im Voraus, was das Thema des Meetings sein wird. Daher kann das verwendete Vokabular sehr umfangreich sein und es ist schwieriger, auf Kontextbasis vorherzusagen, was als nächstes folgen wird. Die neusten Entwicklungen im Bereich der Sprachmodelle zielen aber genau auf dieses Problem ab – die kontextbezogene Vorhersage von Wörtern mit Hilfe von Deep Neural Networks.

Mit diesen Tools an der Hand haben Kollegen, die an der Aufzeichnung und Transkription so genannter „Ambient Speech“, also von Sprache, die nicht gezielt in ein Mikrofon gesprochen wird, arbeiten, kürzlich den veröffentlichten Stand der Technik übertroffen. Neben der Laborarbeit hat Nuance die Nuance Transcription Engine auf den Markt gebracht. NTE zielt zwar primär auf einen speziellen Anwendungsfall ab und transkribiert Gespräche zwischen Call-Center-Agenten und Kunden, kann aber auch in einem breiten Umgebungsspektrum für die Aufzeichnung von Gesprächen zwischen mehreren Sprechern genutzt werden.

Obwohl Transkription also keine so unkomplizierte Aufgabe ist wie vielleicht gedacht, ist man durch die richtige Kombination verschiedener Technologien in der Lage, Meetings erfolgreich zu transkribieren. Der Konferenzraum der Zukunft hat eventuell einen neuen Schriftführer gefunden.

Sources:

Schlagwörter: , ,