Was Sprach-Assistenten „smart“ macht: Meilensteine für die Zukunft

Amazon Echo Dot auf Büchern

Ein Beitrag von Christian Eckert.

Der nicht so stille Begleiter in hunderttausenden deutschen Haushalten: Amazon Echo Dot. Als technikaffiner Vertreter der heutigen Zeit, habe auch ich mir zu Beginn des letzten Jahres das Gerät angeschafft. Was in erster Linie als Ersatz für mein in die Jahre gekommenes Internetradio dienen sollte, entwickelte sich als Allround-Entertainer und ist seitdem nicht mehr wegzudenken.

Nie mehr allein daheim – Sprach-Assistenten im Privatgebrauch

Das Echo Dot spielt neben den auf Amazon Prime verfügbaren Songs auch alle möglichen Radio-Sender und meine gesamte Musik-Bibliothek ab. Der Cloud-basierte Sprachdienst „Alexa“ ist zudem meine Plattform für Multi-Room-Streaming und übernimmt die Steuerung aller SmartHome-Geräte.

So oder so ähnlich sieht die tatsächliche Nutzung digitaler Sprachassistenten im Privatbereich aus – ganz egal ob sie von Amazon, Google, Apple oder Microsoft entwickelt werden. Von wirklich „smart“ oder „künstlicher Intelligenz“ kann man also nur bedingt sprechen. Die Tatsache allein, dass es eine technisch außergewöhnliche Spracherkennung gibt, macht daraus noch keinen proaktiven, intelligenten Begleiter meines Alltags.

Chatbots als Alternative sind zwar schon etabliert – und auch für Marken interessant – aber oft auf ein einziges Anwendungsszenario maßgeschneidert. Ein echtes Gespräch sieht anders aus. Es muss also noch viel Zeit in die Entwicklung investiert werden, um Alexa, Siri, Cortana und Co. von der Krabbelgruppe in den Kindergarten zu schicken.

Neben dem Privatbereich wagen sich auch viele Marken an das Thema Voice ran. Diese müssen mit ihren Anwendungen zwar auch noch mit den Kinderkrankheiten der Plattform wie hakender Sprachevaluation oder einem mangelhaften „Gedächtnis“ für kontinuierliche Konversationen kämpfen, nichtsdestotrotz gibt es bereits die unterschiedlichsten Ansätze, den neuen Kanal zu nutzen.

Echo, Echo an der Wand …

… wer hat die beste Voice-Strategie im ganzen Land? In Deutschland sieht die Lage eher betrüblich aus. Im Land der unbegrenzten Möglichkeiten wird in der Markenkommunikation jedoch schon fröhlich mit Voice experimentiert. Der „klassische“ Weg das zu tun, sind Voice Apps – bei Amazon „Alexa Skills“ genannt. Diese werden einfach mit dem Kommando „Alexa, starte [Name des Skills]“ gestartet. Der Schlüssel zum Erfolg ist hier ein genaues Verständnis der Zielgruppe, um mit der Funktion des Skills einen realen Anwendungsbereich bei den Nutzern abzudecken.

Um mit der Verbreitung der sogenannten Conversational User Interfaces (CUIs) mitzuhalten, müssen sich auch die Kompetenzen in der Digitalbranche erweitern. Das nennt sich dann Conversational UX Design und legt die Grundsteine dafür, den Dialog zwischen Mensch und Maschine so intuitiv wie möglich zu gestalten. Um überhaupt in den Dialog zu kommen, werden für viele Marken die Entwickler von Voice Assistants (v. a. Amazon, Google, Apple) zum künstlichen Nadelöhr. Deren KIs filtern nämlich die Suchergebnisse von Nutzeranfragen.

Während diese heute noch oft in Textform dargestellt werden, wird auch deren Ausgabe in Zukunft immer mehr über Voice stattfinden. Damit sinkt aller Voraussicht nach – aus Gründen der User Experience – die Anzahl an „vorgestellten“ Ergebnisse, und viele Marken werden vom Radar der Nutzer verschwinden. Die Optimierung der eigenen Inhalte in Hinsicht auf Voice Search & Readout ist also ein dringliches Thema, dem Grenzen wie B2B oder B2C herzlich egal sind.

Der nächste (un)logische Schritt: Emotionen

Trotz der großen Potenziale für die Zukunft, sind Voice-Anwendungen für Marken im Moment noch im Anfangsstadium. Das hat auch mit den Limitationen der Technik an sich zu tun. Eine Maßnahme zur Entwicklung eines wirklich intelligenten Sprachassistenten ist nämlich die Fähigkeit zur Sprach- und Stimmanalyse. Diese ist notwendig, um „zwischen den Zeilen hören“ und entsprechend reagieren zu können. Nehmen wir ein einfaches Beispiel:

Nutzer: Alexa, wie wird das Wetter morgen?
Alexa: Morgen ist Regen vorhergesagt, bei 15 Grad Celsius.
Nutzer: Schon wieder Regen … (genervte/enttäuschte Stimme)
Alexa: Übermorgen sieht es wieder anders aus. Die Sonne soll scheinen, bei 20 Grad Celsius.

Sobald dieser Anfang eines Dialogs möglich ist und Alexa eigenständig auf den Input reagiert, fängt es an, interessant zu werden. Die Fähigkeit, emotionale Einschläge in Sprache zu erkennen, wird in Zukunft erheblich dazu beitragen, dass digitale Assistenten unseren Alltag erleichtern.

Roboter mit iPad und Blumenkette

Maschinen, die empathisch reagieren können? PRECIRE Technologies könnte das schon bald mithilfe von Machine Learning und Natural Language Processing ermöglichen.

PRECIRE Technologies, ein Unternehmen für Sprachanalysetechnologie, zeigt in diesem Bereich erste Fortschritte. Deren Software zerlegt Sprachdaten in ihre kleinsten Einzelteile und macht sie dadurch für einen Computer verwertbar. Anhand komplexer Modelle lassen sich aus den so gesammelten Daten fundierte Rückschlüsse etwa über Emotionen und Motiv hinter der analysierten Kommunikation schließen. Große Unternehmen wie Fraport oder Randstad machen sich die Technologie bereits zunutze. Ein groß propagierter Anwendungsfall ist dabei das Recruiting, wo die Software die traditionelle HR unterstützen kann.

Mein Fazit

Digitale Sprachassistenten sollen abseits von Tastatur, Maus und Touchscreen vorausschauend und gewissenhaft mit dem Anwender agieren. Ein wirklich perfekter, intelligenter Begleiter für den Alltag wurde bislang zwar noch nicht entwickelt, doch seit dem Erfolg von Amazon Alexa ist der Kampf der Systeme voll entbrannt. Bis sich ein digitaler Assistent eigenständig in das Leben der Menschen integrieren und im Hintergrund ihre Wünsche vorhersagen oder Vorschläge unterbreiten kann, wird es jedoch noch eine Weile dauern. Solange bin ich gespannt und neugierig auf jegliche Art von neuer Technologie, die dazu führt, Alexa und Co. ein Stück intelligenter zu machen.

Neugierig geworden? Wir haben immer ein offenes Ohr für Fragen: hello@camao.one

Bildschirmfoto 2016-02-17 um 16.57.44

Der Autor

Christian Eckert vor rotem Hintergrund Christian Eckert
Developer, Darmstadt
Christian bei Xing