Wie Sprachassistenten unhörbare Befehle befolgen

Erstellt von Lara Kris­tin Zei­tel | |   Aktuelle Meldungen

Was für einen Men­schen nach einem harm­lo­sen Mu­sik­stück klingt, kann für eine Ma­schi­ne die An­wei­sung sein, eine be­stimm­te Ak­ti­on aus­zu­füh­ren.

Viel bes­ser als zu den An­fän­gen der Sprach­er­ken­nungs­sys­te­me ver­ste­hen Alexa, Siri und Co. heute, was Men­schen ihnen sagen. Manch­mal ver­ste­hen sie sogar Dinge, die der Mensch nicht hören kann. Eine Si­cher­heits­lü­cke, wie die IT-Ex­per­ten vom Bo­chu­mer Horst-Görtz-In­sti­tut für IT-Si­cher­heit (HGI) wis­sen. Ihnen ge­lang es, be­lie­bi­ge Be­feh­le für Sprachas­sis­ten­ten in un­ter­schied­li­chen Arten von Au­dio­si­gna­len zu ver­ste­cken, zum Bei­spiel in Musik, Spra­che oder Vo­gel­ge­zwit­scher. So­lan­ge diese An­grif­fe nur der For­schung die­nen, pas­siert dabei nichts Schlim­mes. Ein bös­ar­ti­ger An­grei­fer könn­te auf diese Weise aber bei­spiels­wei­se einen Song, der im Radio ab­ge­spielt wird, so ma­ni­pu­lie­ren, dass er den Be­fehl ent­hält, ein be­stimm­tes Pro­dukt zu kau­fen oder Kon­trol­le über ein sprach­ge­steu­er­tes Smart Home zu über­neh­men.

In der Fach­spra­che wer­den sol­che An­grif­fe als Ad­ver­sa­ri­al Ex­am­ples be­zeich­net. Lea Schön­herr aus der HGI-Ar­beits­grup­pe Ko­gni­ti­ve Si­gnal­ver­ar­bei­tung ent­wi­ckelt sie in ihrer Dok­to­r­ar­beit im Team von Prof. Dr. Do­ro­thea Ko­los­sa. „Wir nut­zen dafür das psy­cho­akus­ti­sche Mo­dell des Hö­rens“, er­zählt Schön­herr. Wenn das Gehör damit be­schäf­tigt ist, einen Ton einer be­stimm­ten Fre­quenz zu ver­ar­bei­ten, kön­nen Men­schen für ei­ni­ge Mil­li­se­kun­den an­de­re lei­se­re Töne nicht mehr wahr­neh­men. Genau in die­sen Be­rei­chen ver­ste­cken die For­sche­rin­nen und For­scher die ge­hei­men Be­feh­le für die Ma­schi­nen. Für den Men­schen klingt die zu­sätz­li­che In­for­ma­ti­on wie zu­fäl­li­ges Rau­schen, das im Ge­samt­si­gnal kaum oder gar nicht auf­fällt. Für den Sprachas­sis­ten­ten än­dert es je­doch den Sinn: Der Mensch hört Aus­sa­ge A, die Ma­schi­ne ver­steht Aus­sa­ge B.

An­griff funk­tio­niert mitt­ler­wei­le über Laut­spre­cher

Ihre An­grif­fe tes­te­te Lea Schön­herr an dem Sprach­er­ken­nungs­sys­tem Kaldi, einem Open-Sour­ce-Sys­tem, wel­ches in Ama­zons Alexa und vie­len an­de­ren Sprachas­sis­ten­ten ent­hal­ten ist. Sie ver­steck­te un­hör­ba­re Be­feh­le in un­ter­schied­li­chen Au­dio­si­gna­len und über­prüf­te, wel­che In­for­ma­ti­on Kaldi dar­aus de­co­dier­te. Tat­säch­lich ver­stand das Sprach­er­ken­nungs­sys­tem die ge­hei­men Be­feh­le zu­ver­läs­sig.

Zu­nächst funk­tio­nier­te die­ser An­griff nicht über den Luft­weg, son­dern nur, wenn Lea Schön­herr die ma­ni­pu­lier­ten Au­dio­da­tei­en di­rekt in Kaldi hin­ein­spiel­te. Mitt­ler­wei­le kom­men die ge­hei­men Bot­schaf­ten aber auch an, wenn die For­sche­rin dem Sprach­er­ken­nungs­sys­tem die Au­dio­si­gna­le über einen Laut­spre­cher vor­spielt. „Das ist viel kom­pli­zier­ter“, er­klärt sie. „Denn der Raum, in dem die Datei ab­ge­spielt wird, be­ein­flusst den Klang.“ Ein Mu­sik­stück hört sich etwa an­ders an, wenn es in einem Kino er­tönt, als wenn es über die Laut­spre­cher­bo­xen eines Autos ge­spielt wird. Die Größe des Raums, das Ma­te­ri­al der Wände und die Po­si­ti­on des Laut­spre­chers im Raum spie­len dabei eine Rolle.

Den Raum be­rück­sich­ti­gen

All diese Pa­ra­me­ter muss Lea Schön­herr be­rück­sich­ti­gen, wenn sie eine Au­dio­da­tei er­zeu­gen will, die ein Sprachas­sis­tent in einem be­stimm­ten Raum ver­ste­hen kön­nen soll. Dabei hilft die so­ge­nann­te Raum­im­pul­s­ant­wort. Sie be­schreibt, wie ein Raum den Schall re­flek­tiert und so den Klang ver­än­dert. „Wenn wir wis­sen, in wel­chem Raum der An­griff er­fol­gen soll, kön­nen wir die Raum­im­pul­s­ant­wort mit spe­zi­el­len Com­pu­ter­pro­gram­men si­mu­lie­ren und beim Er­zeu­gen der ma­ni­pu­lier­ten Au­dio­da­tei be­rück­sich­ti­gen“, er­klärt Lea Schön­herr. Dass das funk­tio­niert, hat die For­sche­rin be­reits ge­zeigt. Im Test­raum an der RUB de­co­dier­te Kaldi wie ge­wünscht die ge­hei­men Bot­schaf­ten, die die For­sche­rin zuvor in ver­schie­de­nen Ton­si­gna­len ver­steckt hatte.

 

„Wir kön­nen den An­griff also für einen be­stimm­ten Raum maß­schnei­dern“, be­rich­tet die Kom­mu­ni­ka­ti­ons­tech­ni­ke­rin. „Kürz­lich ist es uns aber sogar ge­lun­gen, einen all­ge­mei­nen An­griff durch­zu­füh­ren, der keine Vor­in­for­ma­tio­nen über den Raum be­nö­tigt, und trotz­dem ge­nau­so gut oder sogar noch bes­ser auf dem Luft­weg funk­tio­niert.“ Künf­tig plant die Wis­sen­schaft­le­rin auch Tests mit auf dem Markt er­hält­li­chen Sprachas­sis­ten­ten.

Si­cher­heits­lü­cke schlie­ßen

Da Sprachas­sis­ten­ten ak­tu­ell nicht in si­cher­heits­kri­ti­schen Be­rei­chen im Ein­satz sind, son­dern le­dig­lich dem Kom­fort die­nen, kön­nen die Ad­ver­sa­ri­al Ex­am­ples der­zeit kei­nen gro­ßen Scha­den an­rich­ten. Daher sei es noch früh genug, die Si­cher­heits­lü­cke zu schlie­ßen, mei­nen die For­scher am Bo­chu­mer HGI. Im Ex­zel­lenz­clus­ter Casa, kurz für Cyber Se­cu­ri­ty in the Age of Lar­ge-Sca­le Ad­ver­sa­ries, ko­ope­riert die Ar­beits­grup­pe Ko­gni­ti­ve Si­gnal­ver­ar­bei­tung, die die An­grif­fe ent­wi­ckelt hat, mit dem Lehr­stuhl für Sys­tem­si­cher­heit von Prof. Dr. Thors­ten Holz, des­sen Team an Ge­gen­maß­nah­men dazu ar­bei­tet.

Die IT-Si­cher­heits­for­scher wol­len Kaldi bei­brin­gen, für Men­schen nicht hör­ba­re Be­rei­che in Au­dio­si­gna­len aus­zu­sor­tie­ren und nur das zu hören, was übrig bleibt. „Im Grun­de soll die Er­ken­nung der Ma­schi­ne mehr wie das mensch­li­che Gehör funk­tio­nie­ren, so­dass es schwie­ri­ger wird, ge­hei­me Bot­schaf­ten in Au­dio­da­tei­en zu ver­ste­cken“, er­klärt Thors­ten Ei­sen­ho­fer, der in sei­ner Pro­mo­ti­on die Si­cher­heit von in­tel­li­gen­ten Sys­te­men un­ter­sucht. Die For­scher kön­nen zwar nicht ver­hin­dern, dass An­grei­fer Au­dio­da­tei­en ma­ni­pu­lie­ren. Wenn diese Ma­ni­pu­la­ti­on aber in den für Men­schen hör­ba­ren Be­rei­chen plat­ziert wer­den müss­te, weil die Sprach­er­ken­ner den Rest aus­sor­tie­ren, so lie­ßen sich die An­grif­fe nicht so leicht ver­ste­cken. „Wir wol­len also, dass der Mensch we­nigs­tens hören kann, wenn mit einer Au­dio­da­tei etwas nicht stimmt“, so der For­scher. „Im bes­ten Fall muss ein An­grei­fer die Au­dio­da­tei so weit ma­ni­pu­lie­ren, dass diese mehr wie die ver­ste­cke Bot­schaft klingt als wie das ei­gent­lich Ge­sag­te.“

MP3-Prin­zip als Ge­gen­maß­nah­me

Die Idee: Wenn der Sprach­er­ken­ner die für Men­schen nicht hör­ba­ren Be­rei­che eines Au­dio­si­gnals aus­sor­tiert, müss­te ein An­grei­fer auf die hör­ba­ren Be­rei­che aus­wei­chen, um seine Be­feh­le zu plat­zie­ren. Um das zu rea­li­sie­ren, nutzt Thors­ten Ei­sen­ho­fer das MP3-Prin­zip.

MP3-Da­tei­en wer­den kom­pri­miert, indem für Men­schen nicht hör­ba­re Be­rei­che ge­löscht wer­den – genau das ist es, was die Ver­tei­di­gungs­stra­te­gie gegen die Ad­ver­sa­ri­al Ex­am­ples auch vor­sieht. Ei­sen­ho­fer kom­bi­nier­te Kaldi daher mit einem MP3-En­coder, der die Au­dio­da­tei­en zu­nächst be­rei­nigt, bevor sie zum ei­gent­li­chen Sprach­er­ken­ner ge­lan­gen. Die Tests er­ga­ben, dass Kaldi die ge­hei­men Bot­schaf­ten tat­säch­lich nicht mehr ver­stand, es sei denn sie wur­den in die für Men­schen wahr­nehm­ba­ren Be­rei­che ver­scho­ben. „Das ver­än­der­te die Au­dio­da­tei aber merk­lich“, be­rich­tet Thors­ten Ei­sen­ho­fer. „Die Stör­ge­räu­sche, in denen die ge­hei­men Be­feh­le ver­steckt sind, wur­den deut­lich hör­bar.“

Gleich­zei­tig blieb Kal­dis Sprach­er­ken­nungs­per­for­mance trotz der MP3-Be­rei­ni­gung ver­gleich­bar gut wie die Sprach­er­ken­nung für nicht be­rei­nig­te Da­tei­en. Al­ler­dings nur, wenn das Sys­tem auch mit MP3-kom­pri­mier­ten Da­tei­en trai­niert wurde. „In Kaldi ar­bei­tet ein Ma­chi­ne-Le­arning-Mo­dell“, er­klärt Thors­ten Ei­sen­ho­fer die­sen Um­stand. Die­ses Mo­dell ist so­zu­sa­gen eine künst­li­che In­tel­li­genz, die mit­hil­fe vie­ler Au­dio­da­tei­en als Lern­ma­te­ri­al trai­niert wird, den Sinn von Ton­si­gna­len zu in­ter­pre­tie­ren. Nur wenn Kaldi mit MP3-kom­pri­mier­ten Daten trai­niert wird, kann es diese spä­ter auch ver­ste­hen.

Mit die­sem Trai­ning konn­te Thors­ten Ei­sen­ho­fer das Sprach­er­ken­nungs­sys­tem dazu brin­gen, alles zu ver­ste­hen, was es ver­ste­hen soll – aber eben nicht mehr.

Mehr Infos und Bil­der gibt es auf der RUB-News-Sei­te unter https://​news.​rub.​de/​wissenschaft/​2019-10-23-it-sicherheit-wie-sprachassistenten-unhoerbare-befehle-befolgen. (Fotos: Ro­ber­to Schir­de­wahn)