Multimodale Interaktion: Schau mal da, so verstehen Maschinen, was wir meinen

Auf Menschen und Gegenstände deuten – sei es über das gesprochene Wort, mit Gesten oder nur mit den Augen – ist eine ausgesprochen menschliche Fähigkeit. Smarte, multimodale Assistenten erfassen diese Arten des Zeigens beispielsweise im Auto. Das macht die Interaktion mit dem Fahrzeug heute so menschenähnlich wie nie. Und auch in Zukunft werden Bilderkennung und Deep-Learning-Technologien das autonome Fahren maßgeblich beeinflussen.
Von
Auf Lebewesen und Gegenstände zu deuten – diese Kommunikationsform beherrschte bislang nur der Mensch. Smarte, multimodale Assistenten ziehen jetzt nach.

Die Liste der Dinge, die nur der Mensch beherrscht, schrumpft – und zwar nicht erst seit Computer Schach und Go zu spielen. Zählen? Können Vögel bis zwölf Werkzeuge benutzen? Delphine in Shark Bay, Australien, jagen mit Hilfe von Schwämmen. Da überrascht es fast, wie spezifisch menschlich das Zeigen ist. Obwohl es uns sehr natürlich und einfach erscheint, bringen nicht einmal unsere nächsten Verwandten, die Schimpansen, mehr als die trivialsten Formen des Deutens zu Stande. Wie sollen es also Maschinen lernen können?

 

Drei Arten des Zeigens

1934 hat der Linguist und Psychologe Karl Bühler drei Arten des Zeigens definiert, die in enger Verbindung mit der Sprache stehen. Erstens das Zeigen „ad oculos“, das im „hier“, also im Gesichtsfeld des Sprechers stattfindet das auch für den Zuhörer zugänglich ist. Dafür genügt ein Finger, doch bietet die Sprache ergänzend eine Reihe spezieller Zeigewörter: „hier“ und. „dort“, „dies“ und „das“, „links“ und „rechts“, „vor“ und „hinter“ etc. Die zweite Art des Zeigens bewegt sich in der Welt der Erinnerung oder Vorstellung, die durch die Sprache entsteht: „Wenn Sie das Metropolitan Museum verlassen, liegt der Central Park hinter Ihnen und das Guggenheim Museum zu Ihrer Linken. Vor diesem treffen wir uns.“ Die dritte Form ist das rein sprachliche Deuten. Sprache ist in die Zeit eingebettet. Daher müssen wir oft auf etwas zurückverweisen, das wir früher gesagt haben, oder einen Bezug zu etwas herstellen, das wir erst später sagen werden.

In einem früheren Blog-Post habe ich beschrieben, wie die anaphorische Verwendung von Zeigewörtern („Wie ist das Wetter in Tokio?“ „Schön und sonnig.“ „Gibt es dort gute Hotels?“) in intelligenten Assistenten unterstützt wird (und wie diese Fähigkeit die intelligenteren Assistenten von den weniger intelligenten unterscheidet). Heutige smarte Assistenten beherrschen bereits die erste Art des Zeigens auf Elemente in der sichtbaren Umgebung.

 

Erste Fahrer-Assistenten unterstützen das Zeigen

Auf der CES in Las Vegas hat Nuance kürzlich demonstriert, wie Autofahrer auf Gebäude außerhalb des Autos deuten und dabei Fragen stellen können wie: „Wann ist dieser Laden geöffnet?“ Das „Zeigen“ muss dabei nicht zwangsläufig mit dem Finger erfolgen. Es genügt dank der neuen Technologie, dass der Fahrer auf das betreffende Objekt blickt. Möglich wird dies durch Blickerkennung, bei der eine Kamera die Augen beobachtet, letztlich eine Imitation menschlichen Verhaltens. Denn Menschen erraten, wo jemand hinschaut, allein dadurch, dass sie die Augen ihres Gegenübers beobachten.

Biologen vermuten, dass die auffällige Form des menschlichen Auges – dunkle Iris auf einer kontrastreichen weißen Umgebung – kein Zufall ist, sondern ein Produkt der Evolution, das die Blickerkennung erleichtert.

 

Multimodale Interaktion: Wenn Sprache, Gestik und Handschrift zusammenarbeiten

Dies kommt auch Maschinen zugute, die erlernen, Blicke auf der Basis von Bilderkennung und Deep Learning zu erkennen. An diesen Fähigkeiten arbeiten wir zusammen mit dem Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Und mit ihnen beginnt das Zeitalter der echten multimodalen Assistenten. „Multimodal“ bedeutet dabei nicht nur, dass der Anwender die Wahl zwischen unterschiedlichen Nutzungsarten hat – tippen ODER sprechen ODER mit der Hand auf ein Pad schreiben, um das Ziel ins Navigationssystem einzugeben. Es bedeutet auch, dass verschiedene Modalitäten zusammenarbeiten, um eine Aufgabe zu erfüllen. Deutet zum Beispiel jemand auf etwas in seiner Umgebung (erste Art des Zeigens) und sagt „erzähl mir mehr darüber“ (zweite Art), sind beide Modalitäten nötig, um das Ziel des Akteurs zu verstehen.

Sixtinische Madonna (Raffael)

Von Raffael – Google Art Project: Home – pic ., Gemeinfrei, Link

 

 

 

 

 

 

 

 

 

 

 

 

 

Multimodale Interaktion – Schlüsselfunktion für selbstfahrende Autos der Level 4 und 5?

Die Attraktivität solcher Funktionen für Autofahrer liegt schon heute auf der Hand. Wenn erst die Ära der selbstfahrenden Autos anbricht, dürfte ihre Relevanz noch deutlich steigen. Viele fragen sich, was der Fahrer tun wird, wenn er nicht mehr selbst fahren muss – also, wenn das Fahrzeug die Autonomie-Level vier oder fünf erreicht hat. Eine deutsche Studie aus dem Jahr 2016 zu den Vorteilen selbstfahrender Autos gibt eine überraschende Antwort:  Die meistgewählte Antwort über alle Autonomie-Level lautete: „Ich kann die Landschaft genießen“. Die Zukunft der Blick- und Gestenerkennung, kombiniert mit einem „Just Talk“-Modus für die Spracherkennung ist damit bereits greifbar. Eine Zukunft, in der Sie den automobilen Assistenten fragen können „Was ist dieses Gebäude?“, ohne dafür erst einen Knopf drücken oder ein Keyword sagen zu müssen. Diese Zukunft wird den Nutzern selbstfahrender Autos alle Wünsche erfüllen während Für den Nutzer echter multimodaler Systeme von heute die Maschinen einfach wieder ein Stück menschlicher geworden sind.

Sources:

Schlagwörter: , , ,