10.10.2016 von MediaMagazin-Redaktion

Smartphone

So funktioniert die Sprachsteuerung

Diese Technik macht Sprachassistenten möglich

Ob Apples Siri, Google Now oder Samsung S Voice – die Sprachsteuerung moderner Smartphones oder Fernbedienungen funktioniert stets nach demselben Prinzip. Voraussetzung dafür ist die Anbindung ans Internet.

Foto: piranka/iStock

Es war das Jahr 2012, als Apple mit dem Betriebssystem iOS 5 dem damals aktuellen iPhone 4S das Sprechen lernte. Der enthaltene Sprachassistent Siri revolutionierte die Art und Weise, wie wir unsere mobilen Geräte bedienen. Klar: Sprachsteuerung gab es auch vorher schon. Doch erst Siris eloquente Antworten machten die Technik massentauglich.

Diese Technik macht moderne Sprachassistenten möglich. — Foto: Mina3686/iStock

Woher kommen all die Antworten?

Das Grundprinzip ist bei jedem Sprachassistenten gleich: Die Sprachbefehle des Benutzers werden aufgenommen, in ein spezielles, komprimiertes Format übersetzt und an einen leistungsfähigen Server des jeweiligen Anbieters übermittelt. Dort werden die eintreffenden Daten ausgewertet und die passende Antwort an das Smartphone, Tablet oder Fernbedienung zurückgeschickt – oder eben die gewünschte Anwendung gestartet oder Funktion ausgeführt.

Noch keine Offline-Erkennung

Damit ist klar, dass eine aktive Internet-Anbindung notwendig für das Funktionieren von Siri & Co. ist. Ansonsten gehen dem sonst so cleveren Sprachassistenten schlicht und einfach die Antworten aus. Eine Offline-Erkennung ist bis dato nicht möglich. Dazu reicht die Rechenleistung der in modernen Smartphones verbauten Prozessoren noch nicht aus. Bis es soweit ist, sind die Anbieter der Sprachassistenten auf die Auslagerung auf mächtige, weltweit verstreute Server-Farmen angewiesen.

„Deep Learning“ als Qualitätssprung

Die eigentliche Revolution passierte allerdings im Detail: Drei Jahre nach der Einführung von Siri im Juli 2014 stellte Apple den Sprachassistenten auf das sogenannte „Deep Learning“ um. Damit ist die Fähigkeit der Software gemeint, mehrere Informationsquellen zu vernetzen und somit mit jeder gestellten Aufgabe dazuzulernen – ganz nach Vorbild des menschlichen Gehirns. Die technische Grundlage dafür bildet im Fall von Apples iOS ein rund 200 Megabyte großer, dynamischer Cache-Speicher. Dieser beinhaltet verschiedene Modelle für Sprach-, Szenen- und Gesichtserkennung, die bei der Nutzung von Apps und der verschiedenen Funktionen angewendet bzw. abgeglichen werden. Die Fehlerquote der Spracherkennung sank seither um beeindruckende 25 Prozent. Andere Apps wie Spotlight, Safari oder Karten nutzen mittlerweile ebenfalls „Deep Learning“. Und mit Microsofts „Cortana“ und „Google Now“ folgte auch die Konkurrenz dem Vorbild Apples und machte ihre Software eine Spur „intelligenter“.

Tags:

#Smart Home #Smartphone

Was Sie noch interessieren könnte

Fußball-EM 2024: Wir verraten die tatsächlich besten TVs und draüber hinaus auch Soundbars für die EM 2024.

Home Entertainment

Fußball-EM 2024: Die besten TVs und Soundbars

Im Juni steht die Fußball-EM 2024 in Deutschland auf dem Programm. Wir verraten die besten Fernseher und Soundbars, um das Großevent live im Wohnzimmer zu verfolgen. MEHR LESEN

Gemeinsam Fußball schauen im Heimkino: Hier sind 5 praktische und darüber hinaus auch hilfreiche Tipps

Home Entertainment

Gemeinsam Fußball schauen im Heimkino: 5 Tipps

Die Fußball-EM und andere sportliche Großereignisse machen beim „Rudelgucken“ viel mehr Spaß. So können Sie zu Hause am besten gemeinsam Fußball schauen. MEHR LESEN