Wenn Sprachas­sis­ten­ten zu­hö­ren

Erstellt von Lara Kris­tin Zei­tel | |   News

Wel­che Wör­ter Sprachas­sis­ten­ten ver­se­hent­lich an­sprin­gen las­sen, wurde an der RUB untersucht.

Alexa“, „Hey Siri“, „OK Goog­le“ – auf sol­che Trig­ger sol­len Sprachas­sis­ten­ten re­agie­ren. Sie sprin­gen aber auch bei vie­len an­de­ren Wör­tern an. Wel­che Wör­ter Sprachas­sis­ten­ten ver­se­hent­lich an­sprin­gen las­sen, haben For­sche­rin­nen und For­scher der RUB und des Bo­chu­mer Max-Planck-In­sti­tuts (MPI) für Cy­ber­si­cher­heit und Schutz der Pri­vat­sphä­re un­ter­sucht. Sie er­stell­ten eine Liste von eng­li­schen, deut­schen und chi­ne­si­schen Be­grif­fen, die von ver­schie­de­nen Sprachas­sis­ten­ten wie­der­holt als Auf­for­de­rung zum Zu­hö­ren fehl­in­ter­pre­tiert wur­den. Immer wenn die Sys­te­me an­sprin­gen, schnei­den sie eine kurze Se­quenz des Ge­sag­ten mit und über­mit­teln die Daten an den Her­stel­ler, teil­wei­se ohne dass die Nut­ze­rin­nen und Nut­zer das be­mer­ken.

Die mit­ge­lie­fer­ten Au­dio­schnip­sel wer­den dann von An­ge­stell­ten der Kon­zer­ne tran­skri­biert und über­prüft. So kön­nen Fet­zen von sehr pri­va­ten Un­ter­hal­tun­gen bei Fir­men lan­den.

Über die Er­geb­nis­se der Ana­ly­se be­rich­te­ten die Süd­deut­sche Zei­tung, der NDR und die Ta­ges­schau (https://​www.​tagesschau.​de/​investigativ/​ndr/​smart-speaker-101.​html) am 30. Juni 2020. Bei­spie­le aus der Ar­beit der For­sche­rin­nen und For­scher sind unter https://un­ac­cep­ta­ble-pri­va­cy.​github.​io/​ zu fin­den.

Für das Pro­jekt ko­ope­rier­te Lea Schön­herr aus der RUB-Ar­beits­grup­pe Ko­gni­ti­ve Si­gnal­ver­ar­bei­tung von Prof. Dr. Do­ro­thea Ko­los­sa am Horst-Görtz-In­sti­tut für IT-Si­cher­heit (HGI) der RUB mit Dr. Ma­xi­mi­li­an Golla, frü­her eben­falls am HGI, jetzt am MPI für Si­cher­heit und Pri­vat­sphä­re, sowie Jan Wiele und Thors­ten Ei­sen­ho­fer vom HGI-Lehr­stuhl für Sys­tem­si­cher­heit von Prof. Dr. Thors­ten Holz.

Alle gro­ßen Her­stel­ler im Test

Die IT-Ex­per­tin­nen und -Ex­per­ten tes­te­ten die Sprachas­sis­ten­ten von Ama­zon, Apple, Goog­le, Micro­soft und Deut­scher Te­le­kom sowie drei chi­ne­si­sche Mo­del­le von Xiao­mi, Baidu und Ten­cent. Sie spiel­ten ihnen stun­den­lang deut­sches, eng­li­sches und chi­ne­si­sches Au­dio­ma­te­ri­al vor, unter an­de­rem ei­ni­ge Staf­feln aus den Se­ri­en „Game of Thro­nes“, „Mo­dern Fa­mi­ly“ und „Tat­ort“ sowie Nach­rich­ten­sen­dun­gen. Auch pro­fes­sio­nel­le Au­dio-Da­ten­sät­ze, die zum Trai­ning von Sprachas­sis­ten­ten ver­wen­det wer­den, waren dabei.

Alle Sprachas­sis­ten­ten waren mit einer Diode ver­se­hen, die re­gis­trier­te, wann die Ak­ti­vi­täts­an­zei­ge des Sprachas­sis­ten­ten auf­leuch­te­te, das Gerät also sicht­bar in den ak­ti­ven Modus schal­te­te und somit ein Trig­ger auf­trat. Au­ßer­dem re­gis­trier­te das Setup, wann ein Sprachas­sis­tent Daten nach außen sen­de­te. Immer wenn eines der Ge­rä­te in den ak­ti­ven Modus schal­te­te, pro­to­kol­lier­ten die For­scher, bei wel­cher Au­dio­se­quenz das der Fall war. Ma­nu­ell wer­te­ten sie spä­ter aus, wel­che Be­grif­fe den Sprachas­sis­ten­ten ge­trig­gert hat­ten.

Fehl­t­rig­ger iden­ti­fi­ziert und selbst er­zeugt

Aus die­sen Daten er­stell­te das Team eine erste Liste von über 1.​000 Se­quen­zen, die Sprachas­sis­ten­ten fälsch­li­cher­wei­se trig­gern. Ab­hän­gig von der Be­to­nung hört Alexa im Eng­li­schen bei­spiels­wei­se auf die Wör­ter „un­ac­cep­ta­ble“ und „elec­tion“ oder Goog­le auf „OK, cool“. Im Deut­schen lässt sich Ama­zon bei­spiels­wei­se durch „Am Sonn­tag“ und Siri durch den Be­griff „Dai­qui­ri“ täu­schen.

Um zu ver­ste­hen, was diese Be­grif­fe zu Fehl­t­rig­gern macht, zer­leg­ten die For­sche­rin­nen und For­scher die Wör­ter in ihre kleinst­mög­li­chen Klang­ein­hei­ten und iden­ti­fi­zier­ten die Ein­hei­ten, die häu­fig von den Sprachas­sis­ten­ten ver­wech­selt wur­den. Ba­sie­rend auf die­sen Er­kennt­nis­sen er­zeug­ten sie neue Trig­ger­wör­ter und zeig­ten, dass diese die Sprachas­sis­ten­ten eben­falls an­sprin­gen las­sen.

„Die Ge­rä­te sind mit Ab­sicht etwas li­be­ral pro­gram­miert, weil sie ihre Men­schen ver­ste­hen kön­nen sol­len. Sie sprin­gen also eher ein­mal zu viel als zu wenig an“, re­sü­miert Do­ro­thea Ko­los­sa.

Au­dio­schnip­sel wer­den in der Cloud ana­ly­siert

Die Wis­sen­schaft­ler un­ter­such­ten ge­nau­er, wie die Her­stel­ler Fehl­t­rig­ger aus­wer­ten. Ty­pisch ist ein zwei­stu­fi­ger Pro­zess. Zu­nächst ana­ly­siert das Gerät lokal, ob in der wahr­ge­nom­me­nen Spra­che ein Trig­ger­wort ent­hal­ten ist. Ver­mu­tet das Gerät, das Ak­ti­vie­rungs­wort ge­hört zu haben, fängt es an, dass der­zei­ti­ge Ge­spräch für eine wei­te­re Ana­ly­se mit mehr Re­chen­power in die Cloud des Her­stel­lers hoch­zu­la­den. Iden­ti­fi­ziert die Cloud-Ana­ly­se den Be­griff als Fehl­t­rig­ger, bleibt der Sprachas­sis­tent stumm, nur seine Kon­troll­leuch­te leuch­tet kurz auf. In die­sem Fall kön­nen be­reits meh­re­re Se­kun­den Au­dio­mit­schnitt bei den Her­stel­lern lan­den, wo sie von Men­schen tran­skri­biert wer­den, um solch einen Fehl­t­rig­ger in der Zu­kunft zu ver­mei­den.

„Aus Pri­va­cy-Sicht ist das na­tür­lich be­denk­lich, weil teils sehr pri­va­te Un­ter­hal­tun­gen bei Frem­den lan­den kön­nen“, sagt Thors­ten Holz. „Aus En­gi­nee­ring-Sicht ist das Vor­ge­hen hin­ge­gen nach­voll­zieh­bar, denn die Sys­te­me kön­nen nur mit­hil­fe sol­cher Daten ver­bes­sert wer­den. Die Her­stel­ler müs­sen einen Spa­gat zwi­schen Da­ten­schutz und tech­ni­scher Op­ti­mie­rung schaf­fen.“

Mehr dazu gibt es auf der RUB-News Seite unter https://​news.​rub.​de/​wissenschaft/​2020-06-30-it-sicherheit-wenn-sprachassistenten-zuhoeren-obwohl-sie-gar-nicht-sollen

Foto: RUB/Mar­quard