Technische Grundlagen der Sprachassistenten

Die Entwicklung der Sprachassistenten

Seit es Computer gibt, ist der Mensch bestrebt, ihnen die menschliche Sprache näher zu bringen. Lange Zeit erschien es jedoch eher unwahrscheinlich, dass Mensch und Maschine sich in einem normalen Dialog austauschen. Dieser Wunsch schlug sich so auch immer wieder in vielen Science-Fiction Filmen nieder. Wenn Data, R2-D2 oder HAL mit klarer Aussprache dem Menschen zur Seite stehen. Doch lange blieb nur der Wunsch der Vater des Gedankens. In der Praxis schafften Wissenschaftler einfach nicht, dem Computer das Sprechen beizubringen.

Doch besonders in den letzten Jahren konnte die Wissenschaft den entscheidenden Durchbruch feiern und den Sprachassistenten zur Marktreife führen. Zwar sind die aktuellen Sprachfähigkeiten der computergestützten Systeme immer noch nicht perfekt und der Anwender schafft es meist mühelos, den Assistenten an seine eigenen Grenzen zu führen. Dennoch ist die Alltagstauglichkeit längst erreicht.

Siri machte den Anfang

Bereits 2011 brachte Apple seine virtuelle Assistentin Siri mit einer wohlklingenden Stimme auf das iPhone. Zwar läuft Siri in der Zwischenzeit auf allen Apple-Geräten, doch den entscheidenden Durchbruch konnte Apple bis heute noch nicht schaffen, auch wenn in den nächsten Monaten weitere Entwicklungsschritte zu erwarten sind. Dennoch hat Apple die Gelegenheit verpasst, sich als alleiniger Marktführer für Sprachassistenten zu platzieren. Entsprechend haben andere Konzerne mit eigenen Lösungen nachgelegt. Microsoft bringt auf allen Windows-Systemen die virtuelle Gehilfin Cortana in Stellung. Längst hat Google ebenfalls seinen Systemen das Sprechen mit dem Google Assistant beigebracht. Samsung startet mit dem eigenen Sprachassistenten Bixby. Aktuell an der Spitze liegt Amazon mit seinem sprechenden Assistenten Alexa.

Die neue Mensch-Maschine-Schnittstelle

Bisher kommunizierte der Mensch mit seinen Maschinen fast ausschließlich über mechanische Einheiten. Mittels Tastatur, Touchscreen, Maus oder Joystick wurde den unterschiedlichen Geräten beigebracht, was der Anwender von seinem Rechner erwartete. Dies waren die bisherigen Schnittstellen, worüber der Nutzer seine Befehle, Kommandos und Fragen absetzte. Der Mensch wurde dazu stets physisch aktiv und berührte dazu Tasten, Knöpfe und Displays. Doch mit sprachgesteuerten Systemen ändert sich dieser Übergang zwischen Mensch und Maschine ganz entscheidend. Plötzlich wird die Schnittstelle zu einem Computer allgegenwärtig. Der Nutzer muss sich nicht mehr zur Tastatur bewegen und diese bedienen. Vielmehr nimmt der Computer seine Befehle einfach per Sprache entgegen. Leistungsstarke Mikrofone sorgen dafür, dass das Gesprochene empfangen wird, unabhängig von der momentanen Position des Nutzers.

Alexa auf der Überholspur

Interessanterweise überwindet gerade der Handelskonzern Amazon mit seinem Sprachassistenten Alexa eindrucksvoll die bisherigen Hürden. Amazon wagt erstmals mit seinen Echo-Geräten den Schritt zu einer neuen Mensch-Maschine-Schnittstelle. Die Macher verzichten auf die bisherigen Eingabemedien und platzieren einfach einen Lautsprecher mit Mikrofonen im Raum, der über eine drahtlose Anbindung in die Cloud verbunden ist. Auf einfache Weise wird so der Nutzer mit einem leistungsstarken System direkt verbunden.

Abb.: Amazon Echo (Quelle: Amazon)

Nun kann der Anwender sich frei bewegen und einfach mit Alexa im Raum kommunizieren. So wird die Kommunikation wesentlich intuitiver. Dafür ist nur eine minimale Hardware-Ausstattung notwendig. Erstmals folgt der verbundene Computer den Sprachbefehlen seines Nutzers mit einer handelsüblichen Ausstattung. So erschließen sich dem Menschen unendliche Möglichkeiten per Sprache auf riesige Datenmengen zuzugreifen. Zumal sich das System nicht nur auf einfache Abfragen beschränkt. Vielmehr spricht man miteinander. Wer das Alexa-System selbst ausprobiert, wird schnell feststellen, dass es sich hier um eine Vorform von echter Kommunikation zwischen Mensch und Maschine handelt.

Die Zukunft gehört der Sprache – bei manchen Dingen

Zweifelsohne stellt die sprachgesteuerte Schnittstelle die nahe Zukunft dar. Dies haben natürlich auch die großen Konzerne für sich entdeckt. Wer es schafft, einen neuen Standard an dieser Stelle zu platzieren, sieht rosigen Zeiten entgegen. Sicherlich werden Sprachassistenten nicht die bisherigen Eingabeformen verdrängen. Umfangreiche Texte lassen sich auch weiterhin besser über eine Tastatur eingeben. Ein Computerspiel kann sich auch weiterhin schneller und effektiver mit einem speziellen Controller steuern und eine Grafik oder ein Bild lässt sich nur äußerst umständlich per Sprache erstellen.

Doch die kleinen alltäglichen Dinge lassen sich perfekt mittels Sprache steuern. Wer zukünftig das Licht anmacht, die Musik lauter dreht, die Heizung regelt oder eine einfache Wissensfrage schnell beantwortet haben will, wird dies einfach per Sprachbefehl tun. Entsprechend wird dies nur mit einem übergreifenden System möglich sein, dass alle unterschiedlichen Fabrikate steuern kann. Sogenannte Smart Home Lösungen sind der eigentliche Zukunftsmarkt, der mit Sicherheit durch Sprachassistenten geprägt sein wird. Hier hat aktuell Amazon mit Alexa eindeutig die Nase vorn.

Warum ist die menschliche Sprache so schwierig abzubilden?

Natürlich ist die menschliche Sprache ein äußerst komplexes Thema, dass für einen Computer bei dem aktuellen technischen Stand kaum zu bewältigen ist. Dabei hat die Wissenschaft viele Jahre lang versucht, die Tiefen der menschlichen Sprache zu ergründen und diese 1:1 auf dem Computer abzubilden. Doch genau dieser Ansatz führte dazu, dass die Wissenschaft die menschliche Sprache nicht in den Griff bekam und die Ergebnisse eher mager ausfielen.

Erste Systeme waren durchaus in der Lage, eine sinnvolle Konversation zu erzeugen, allerdings nur auf einen sehr kleinen Sprachraum beschränkt. Bereits 1966 versetzte das Programm ELIZA in Erstaunen. Die Software reagierte dabei nur auf Schlüsselworte, die ein Gesprächspartner vorgab. So entstand eher zufällig ein Gespräch, dass in der Praxis teilweise erstaunliche Dialoge liefert. 1972 konnte eine Software namens SHRDLU mit klaren Anweisungen virtuelle Bausteine bewegen. Doch der Versuch, diese sehr eingegrenzten Themen auf größere Sprachräume zu erweitern, führte nie zum Ziel. Mit wachsender Grammatik und einer Vergrößerung des Vokabulars, wuchsen auch die Fehler.

So versuchten Wissenschaftler im Bereich der natürlichen Sprachverarbeitung (NLP) die menschliche Sprache mit jedem Detail auf einem Computer abzubilden. Auch dieser Ansatz scheiterte, da es einfach zu viele Fehlerquellen gab. Dabei erfolgte die Eingabe der Daten immer noch per Tastatur. So erwies sich viele Jahre lang eine direkte Spracheingabe als noch größere Hürde.

Legendär war beispielsweise das Übersetzungsprogramm Babelfish von Yahoo. Der Name war dem Roman „Per Anhalter durch die Galaxis“ entliehen. Darin agierte unter diesem Namen ein vielsprachiges Wesen. Das Programm lieferte teilweise völlig sinnlose Ergebnisse. Trotz großer Beliebtheit wurde Babelfish 2012 eingestellt.

Die Sprachanalyse bringt den Durchbruch

Dann beginnt ein Umdenken in der Wissenschaft und man rückt von dem bisherigen Ansatz, nach vorgegebenen, verschachtelten Regeln der Sprache auf die Spur zu kommen. Nun lassen Sprachwissenschaftler die Statistik mit einfließen. Erste Erfolge verzeichnen erste Projekte bei der Übersetzung von Sprachen. Vor der eigentlichen Übersetzung werden mittels statistischen Berechnungen spezielle Ähnlichkeiten, auftretende Häufigkeiten und Übereinstimmungen in den beiden Sprachen ermittelt. Erst dann beginnt die Übersetzung. Auf diesem Wege werden die Ergebnisse deutlich besser. Erster Vertreter dieses Ansatzes war beispielsweise Google Translate. Die Besonderheit dabei ist, dass die Software keine Kenntnisse von den einzelnen Sprachen benötigt. Vielmehr erfolgt die Übersetzung anhand von mathematischen Berechnungen und Übereinstimmungen.

Neuronalen Netzen gehört die Zukunft

Im nächsten Entwicklungsschritt übernahmen dann neuronale Netze (künstliche Intelligenz) die Sprachanalyse, um die direkten Zusammenhänge zwischen Ausgangs- und Zielsprache zu ermitteln. Dahinter steckt ein völlig neuer Ansatz, um die menschliche Sprache von einem Computer zu durchleuchten. Versuchte die Wissenschaft in den Anfängen der Sprachforschung die Sprache anhand von Regeln abzubilden, greift man heute auf große Menge von Referenztexten zurück. Hilfreich ist dabei, dass heute bereits große Datenmengen in verschiedenen Sprachen in digitaler Form existieren, die zudem auch die gleichen Inhalte umfassen. Zudem kann die heute zur Verfügung stehende Technik diese riesigen Datenmengen auch sehr schnell verarbeiten.

So können mittels Wahrscheinlichkeiten, Ähnlichkeiten und Übereinstimmungen Texte mit einer geringen Fehlerquote übersetzt werden. Mit dieser Herangehensweise bekommt ein Computer auch mühelos das Problem von Mehrdeutigkeiten von einzelnen Begriffen in den Griff. Die Wissenschaft rückt davon ab, eine 100prozentige Genauigkeit zu erzielen, vielmehr gibt man sich mit einer hohen Wahrscheinlichkeit zufrieden.

Dieser neue Ansatz bei der Übersetzung von Texten funktioniert auch bei gesprochenem Wort. Auch hier greift das System auf eine große Anzahl von bereits vorhandenen Inhalten zurück. Der Einsatz von neuronalen Netzen brachte dann den eigentlichen Durchbruch.