In einer Studie dokumentieren die Bitdefender Labs die starke Zunahme von mit Künstlicher Intelligenz (KI) produzierten Video Deepfakes mit Voice Cloning von Prominenten. Diese verbreiten Cyberkriminelle über Anzeigen immer mehr über beliebte Social-Media-Plattformen wie Facebook, Instagram oder Messenger.
In den Videos geklonte Prominente leiten die Opfer mit verlockenden Angeboten auf überzeugend aufgebaute E-Commerce-Webseiten. Viele der Videos sind allerdings nicht von bester Qualität, weisen sichtbare Artefakte oder Fehler wie verzerrte Darstellungen und asynchrone Lippenbewegungen auf. Ein aufmerksamer Beobachter kann sie erkennen. Die Bitdefender Labs schätzen, dass mit solchen betrügerischen Maschen mindestens eine Million Nutzer in den USA und zahlreichen europäischen Ländern erreicht werden. Eine der beobachteten Anzeigen erreichte rund 100.000 Nutzer der verschiedensten Altersgruppen zwischen 18 und 65 Jahren. Die Experten von Bitdefender rufen anlässlich dieses sich verstärkenden Trends zu Datensparsamkeit auf, die auch für digitale Sprachsamples gilt.
KI-basierte Stimmgeneratoren
In den manipulierten Videoinhalten nutzten die Angreifer KI-basierte Stimmgeneratoren, um die Stimmen bekannter Prominenter wie Jennifer Aniston, Elon Musk, Tiger Woods, den rumänischen Präsidenten oder Ion Tiriac zu imitieren. Die vermeintlichen Prominenten versprechen dann hochwertige Waren, wie aktuelle iPhone-Modelle, Macbooks, Chicco-Autositze, Luxustaschen von Michael Kors oder Coach sowie Dyson-Staubsauger als Geschenk. Fällig werden lediglich minimale Liefergebühren, wie etwa 9,95 Euro bei einem MacBook. Andere betrügerische Inhalte werben mit Gewinnspielen und attraktiven Investitionsmöglichkeiten. Wie bei anderen betrügerischen Angeboten, stehen die Waren angeblich nur einem kleinen Kreis von Interessenten für eine begrenzte Zeit bereit. Um die Glaubwürdigkeit der Offerten zu erhöhen, bauen die Cyberkriminellen Internetpräsenzen von Tageszeitungen wie etwa der New York Times, sowie professionell anmutende Check-Out-Seiten für den Erwerb der Produkte auf. Hauptziel der Anwender ist das Stehlen persönlicher Daten wie Kreditkartennummern.
Voice Cloning: Hintergrund
Beim Voice Cloning nutzen die Urheber KI-Werkzeuge, um synthetische Kopien einer individuellen menschlichen Stimme zu erstellen. Diese anspruchsvollen Technologien nutzen Deep Learning und verwenden die tatsächliche Stimme des Originals als Ausgangsbasis. Die Klone bringen sie dann mit Text-to-Speech-Systemen zum Reden. Zunächst sammeln die Autoren Stimmproben. Es genügen schon wenige Sekunden Material aus einem Video, einer Social-Media-Sequenz oder einer anders erstellten Aufnahme. Die KI analysiert die Stimme auf ihre individuellen Charakteristiken wie Höhe oder Tiefe, Sprachgeschwindigkeit, Tonfall oder Lautstärke. Aufbauend auf diesen Analysedaten erfolgt das Training eines Machine-Learning-Modells. Danach ist die Software in der Lage, gesprochene Rede und einen Voice Clone zu generieren. Mit weiteren Daten lässt sich die Qualität des Klons weiter optimieren.
Voice Cloning kennt viele legitime Anwendungsfälle in Bildung, Gesundheitswesen oder Unterhaltung, wie etwa persönliche Video-Assistenten, Overdubs für Schauspieler, Audiobooks, legitime Social-Media-Inhalte oder die Hilfe für Menschen mit Sprachbehinderungen. Cyberkriminelle nutzen aber weltweit die Stimmimitation für Betrug von Verwandten, Erpressungen, Cyberbullying, vorgetäuschte Entführungen oder – wie in den von Bitdefender analysierten Beispielen – für das Hinleiten auf Phishing-Links. Beim CEO-Fraud geben sich Betrüger als Geschäftsführer aus, um Mitarbeiter zur Herausgabe vertraulicher Informationen oder Transaktionen zu veranlassen.
Mit Voice-Cloning-Betrug umgehen
Nutzer sind dringend aufgefordert, beim Umgang mit Video/Audio-Inhalten vorsichtig zu sein und folgende Ratschläge zu berücksichtigen:
- Die Qualität und Konsistenz der Stimme prüfen: Mängel in der Sprachqualität sind oft hörbar. Ein ungewöhnlicher Tonfall, eine statisch klingende Stimme oder ein inkonsistentes Sprechmuster (Sprechweise, falsche Aussprache und Betonung) deuten auf eine Fälschung hin.
- Hintergrundgeräusche und Artefakte: Reines Voice Cloning minimiert Hintergrundgeräusche. Bei Audio/Video-Clips sind diese oft noch zu erkennen. Auch digitale Artefakte sind Warnzeichen.
- Datensparsamkeit gilt auch für Sprachsamples: Wer sich im Internet bewegt, sollte nicht nur so wenig wie möglich persönliche Informationen von sich preisgeben. Auch Sprachproben sollten nicht mit Unbekannten geteilt werden. Schon wenige Sekunden an Audiomaterial können ausreichen, um einen Video-Clone zu erstellen.
- Ungewöhnliche Anfragen und zu attraktive Angebote hinterfragen: Bei den Kampagnen mit Deep-Fake-Videoinhalten gelten dieselben Regeln, wie bei anderen Inhalten aus dem Internet: Zu attraktive Angebote, das Erzeugen von zeitlichem Druck beim Adressaten und die Bitte um Herausgabe persönlicher Informationen sind Warnzeichen für betrügerische Absichten.
- Im Zweifelsfall die vermeintlichen Anbieter kontaktieren: Ein Telefonat bei dem vermeintlichen Anbieter schafft schnell Klarheit.
- Die Polizei verständigen: Betrügerische Sprachklone sollten Anwender immer an die Behörden melden.
- Sich informieren und schützen: Verbraucher sollten Hinweise auf Kampagnen ernst nehmen. Ebenso wichtig ist Sicherheitssoftware zum Schutz der digitalen Identität, gegen KI-unterstütztes Phishing oder anderen Betrug auf Rechnern und Smartphones.
Die vollständige Studie finden Sie zum Download hier.