Sogenannte Smart Speaker werden häufig unbeabsichtigt aktiviert und übermitteln private Gespräche. Drei ehemalige Mitarbeiterinnen und Mitarbeiter von Firmen, die für Apple und Amazon solche Aufnahmen überprüft haben, schildern, wie sie intime Momente aus dem Leben von Kundinnen und Kunden mitgehört haben. In Interviews mit STRG_F, dem investigativen NDR Rechercheformat für funk, und der Süddeutschen Zeitung (SZ) berichten sie von belauschten Gesprächen mit Ärztinnen und Ärzten, Geschäftsbesprechungen und aufgezeichneten Streits und Sex.
Elbe Express / Haber Merkezi
Die Geräte sollen nur Aufnahmen übermitteln, wenn sie mit speziellen Wörtern aktiviert werden – etwa mit „Ok, Google“, „Hey, Siri“ oder „Alexa“. Erst dann soll eine Verbindung zum Rechenzentrum hergestellt und der folgende Sprachbefehl verarbeitet werden. Eine neue Studie, die STRG_F und der SZ vorliegt, belegt aber, dass Smart Speaker häufig ungewollt Aufnahmen starten. Bei der aktuellen Untersuchung schalteten sich die Geräte auch bei anderen Wörtern ein. Hersteller lassen einen Teil der Aufnahmen von Menschen mithören, um zu prüfen, ob der Computer die Befehle richtig erkennt.
Eine Forschergruppe der Ruhr-Universität Bochum und des Bochumer Max-Planck-Instituts für Sicherheit und Privatsphäre hat insgesamt elf Smart Speaker untersucht: von Apple, Google, Amazon, Microsoft, der Telekom und den chinesischen Firmen Xiaomi, Tencent und Baidu. Die Wissenschaftlerinnen und Wissenschaftler beschallten die Geräte 16 Tage lang mit englischsprachigen TV-Serien, Nachrichten sowie speziellen Tondatenbanken und registrierten dabei rund 735 fehlerhafte Auslöser. Nach weiteren sieben Tagen deutschsprachiger Sendungen hatten sich die Geräte rund 180 Mal aktiviert.
Dabei stellten sie signifikante Unterschiede zwischen den einzelnen Herstellern fest. Bei den englischsprachigen Tests startete Microsofts „Cortana“-Assistenzsystem am häufigsten eine Aufzeichnung, ohne ausdrücklich aktiviert worden zu sein. Bei den deutschsprachigen Systemen schalteten sich die Geräte von Amazon deutlich öfter unbeabsichtigt ein als die von Google, Apple und Telekom.
Viele Fehler waren auf ähnlich klingende Worte zurückzuführen. Als in der Sendung „Das Traumschiff“ etwa ein „Daiquiri“ bestellt wurde, fühlte sich das Apple-Gerät („Hey Siri“) angesprochen. Als es in derselben Serie um „Botswana“ ging, sprang die Microsoft-KI „Cortana“ an. Amazons Gerät reagierte auf eine Wetter-Vorhersage, dass es „am Sonntag“ („Amazon“) gutes Wetter geben solle.
Der Hamburger Datenschutz-Beauftragte Johannes Caspar fordert, dass die Unternehmen von sich aus auf dieses Problem aufmerksam machen. „Man muss vom Hersteller erwarten, dass er die Verbraucher im datenschutzrechtlichen Sinne aufklärt und darauf hinweist, dass es eben ein entsprechendes Risiko der Privatsphäre ist“, sagte Caspar NDR und SZ. Das könne etwa über entsprechende Label oder Hinweise auf der Verpackung geschehen. Er setzt aber auch darauf, dass die Systeme mit der Zeit besser und ungewollte Aktivierungen seltener werden. „Künstliche Intelligenz lernt aus Fehlern“, so Caspar.
Google hat derzeit die manuelle Auswertung nach eigenen Angaben ausgesetzt, will aber in Zukunft wieder Menschen einsetzen, um die Sprachtechnologie zu verbessern. Die Nutzerinnen und Nutzer müssten dem aktiv zustimmen, teilte das Unternehmen auf Anfrage mit. Grundsätzlich arbeite Google ständig daran, die Erkennungstechnologie für die Aktivierungswörter zu verbessern. Zudem könnten Nutzerinnen und Nutzer Aufnahmen löschen lassen, wenn sie erkennen, dass sich das Gerät unbeabsichtigt eingeschaltet hat.
Apple hat auf Fragen nicht geantwortet, sondern lediglich auf eine Stellungnahme vom August 2019 verwiesen. Darin heißt es, alle Daten von Siri würden unter einer zufälligen Kennung verarbeitet und nicht mit der Apple-ID oder der Telefonnummer verknüpft. Standardmäßig speichere das Unternehmen keine Audioaufzeichnungen mehr. Nutzerinnen und Nutzer könnten dem aber aktiv zustimmen, um zu „einer Verbesserung“ beizutragen. Die Aufnahmen bekämen dann „ausschließlich Apple-Mitarbeitende“ zu hören, jede unbeabsichtigte Aufzeichnung werde gelöscht.
Amazon schrieb, die Erkennung des Aktivierungswortes und die Spracherkennung würden sich täglich verbessern und man investiere „weiterhin in die Verbesserung der entsprechenden Technologien“. Ein „Bruchteil von einem Prozent der Alexa-Anfragen” werde manuell bearbeitet. Die Aufnahmen seien dabei nicht mit Kundendaten verknüpft und nur eine begrenzte Anzahl von Mitarbeiterinnen und Mitarbeiter habe Zugriff. Anders als bei Google und Apple müssen Kunden dem aber nicht aktiv zustimmen. Sie könnten der Nutzung der Sprachaufzeichnungen aber widersprechen, so Amazon.
Die Telekom teilte mit, dass eine Sicherheitsmaßnahme zum Schutz der Privatsphäre greife, sollten ähnlich klingende Worte zu einer versehentlichen Aktivierung führen. Die Sprachplattform überprüfe, ob wirklich das entsprechende Wort gesagt wurde. Nutzerinnen und Nutzer könnten auch den Verlauf der Gespräche einsehen, auf ungewollte Aufzeichnungen aufmerksam machen und diese löschen lassen. Zudem könnten sie die Mikrofone der Geräte mit einer Stumm-Taste ausschalten. Zur Sprachverbesserung würden „auf Datenschutz geschulte Mitarbeiter der Telekom“ einige Textfiles analysieren. Die Aufnahmen würden zuvor anonymisiert. Wenn ein Kunde dies nicht wolle, könne er in der App widersprechen.
Microsoft hat auf die Anfrage nicht geantwortet. Der Software-Konzern hat sein Spracherkennungs-System für Smart Speaker mittlerweile eingestellt. Xiaomi antwortete als einziger chinesischer Hersteller und erklärte, dass die Geräte nicht für deutsch- oder englischsprachige Umgebungen optimiert seien. Alle der getesteten Sprachassistenten aus China werden offiziell nicht nach Europa verkauft.
STRG_F veröffentlicht dazu eine Reportage auf seinem YouTube-Channel und unter: https://www.funk.net/channel/strgf/
Das Format wird vom NDR für das ARD-ZDF-Netzwerk funk produziert.