Smartphone

So funktioniert die Sprachsteuerung

Diese Technik macht Sprachassistenten möglich

Ob Apples Siri, Google Now oder Samsung S Voice – die Sprachsteuerung moderner Smartphones oder Fernbedienungen funktioniert stets nach demselben Prinzip. Voraussetzung dafür ist die Anbindung ans Internet.

So funktioniert die Sprachsteuerung
Foto: piranka/iStock

Es war das Jahr 2012, als Apple mit dem Betriebssystem iOS 5 dem damals aktuellen iPhone 4S das Sprechen lernte. Der enthaltene Sprachassistent Siri revolutionierte die Art und Weise, wie wir unsere mobilen Geräte bedienen. Klar: Sprachsteuerung gab es auch vorher schon. Doch erst Siris eloquente Antworten machten die Technik massentauglich.

Diese Technik macht moderne Sprachassistenten möglich.
Foto: Mina3686/iStock

Woher kommen all die Antworten?

Das Grundprinzip ist bei jedem Sprachassistenten gleich: Die Sprachbefehle des Benutzers werden aufgenommen, in ein spezielles, komprimiertes Format übersetzt und an einen leistungsfähigen Server des jeweiligen Anbieters übermittelt. Dort werden die eintreffenden Daten ausgewertet und die passende Antwort an das Smartphone, Tablet oder Fernbedienung zurückgeschickt – oder eben die gewünschte Anwendung gestartet oder Funktion ausgeführt.

Noch keine Offline-Erkennung

Damit ist klar, dass eine aktive Internet-Anbindung notwendig für das Funktionieren von Siri & Co. ist. Ansonsten gehen dem sonst so cleveren Sprachassistenten schlicht und einfach die Antworten aus. Eine Offline-Erkennung ist bis dato nicht möglich. Dazu reicht die Rechenleistung der in modernen Smartphones verbauten Prozessoren noch nicht aus. Bis es soweit ist, sind die Anbieter der Sprachassistenten auf die Auslagerung auf mächtige, weltweit verstreute Server-Farmen angewiesen.

„Deep Learning“ als Qualitätssprung
Foto: a-image/iStock

„Deep Learning“ als Qualitätssprung

Die eigentliche Revolution passierte allerdings im Detail: Drei Jahre nach der Einführung von Siri im Juli 2014 stellte Apple den Sprachassistenten auf das sogenannte „Deep Learning“ um. Damit ist die Fähigkeit der Software gemeint, mehrere Informationsquellen zu vernetzen und somit mit jeder gestellten Aufgabe dazuzulernen – ganz nach Vorbild des menschlichen Gehirns. Die technische Grundlage dafür bildet im Fall von Apples iOS ein rund 200 Megabyte großer, dynamischer Cache-Speicher. Dieser beinhaltet verschiedene Modelle für Sprach-, Szenen- und Gesichtserkennung, die bei der Nutzung von Apps und der verschiedenen Funktionen angewendet bzw. abgeglichen werden. Die Fehlerquote der Spracherkennung sank seither um beeindruckende 25 Prozent. Andere Apps wie Spotlight, Safari oder Karten nutzen mittlerweile ebenfalls „Deep Learning“. Und mit Microsofts „Cortana“ und „Google Now“ folgte auch die Konkurrenz dem Vorbild Apples und machte ihre Software eine Spur „intelligenter“.

TEILEN