Die Landesbehörde für Cybersicherheit in Baden-Württemberg

Im Detail: Deepfakes - Was ist das?

Stellen Sie sich vor, Sie sehen ein Video eines Politikers, der eine schockierende Erklärung abgibt. Oder ein Foto Ihrer Führungskraft in einer kompromittierenden Situation. Vielleicht hören Sie sogar Ihre eigene Stimme, die Dinge sagt, die Sie nie geäußert haben. Deepfakes sind eine Technologie, die die Grenzen zwischen Wahrheit und Täuschung verschwimmen lässt und unsere Wahrnehmung der Realität auf den Kopf stellt.
Symbolbild für Deep Fakes mit mehreren Kacheln und einer Hand, die darauf tipps

© Adobe Stock

Deepfakes, benannt nach der Kombination von „Deep Learning“ und „Fake“, sind hochentwickelte digitale Manipulationen, die mithilfe künstlicher Intelligenz erstellt werden. Sie können Videos, Bilder und sogar Audiodateien so überzeugend fälschen, dass selbst Expertinnen und Experten Schwierigkeiten haben können, sie von echten Aufnahmen zu unterscheiden.

Von harmlosen Spaßvideos bis hin zu gefährlicher politischer Propaganda – Deepfakes haben das Potenzial, unser Vertrauen in mediale Inhalte grundlegend zu erschüttern. Doch wie funktioniert diese Technologie? Welche Gefahren birgt sie? Und gibt es Möglichkeiten, sich davor zu schützen?

  • Deepfakes sind Medieninhalte wie Fotos, Videos oder Audios, die mithilfe künstlicher Intelligenz (KI) und neuronaler Netze manipuliert oder komplett neu erstellt wurden. Das Ziel ist es, täuschend echte Inhalte zu erzeugen, die ohne Weiteres nicht als Fälschung erkennbar sind.

     

    Die Technologie hinter Deepfakes basiert auf neuronalen Netzwerken, insbesondere sogenannten „Generative Adversarial Networks“ (GANs). Ein GAN besteht aus zwei Hauptkomponenten:

    1. Generator, der gefälschte Bilder oder Videos erzeugt
    2. Diskriminator, der diese prüft und als echt oder gefälscht einstuft

    Diese beiden Komponenten arbeiten in einer kontinuierlichen Schleife zusammen und verbessern sich gegenseitig, bis der Generator täuschend echte Fälschungen produzieren kann.

     

    Alternativ können Autoencoder genutzt werden, die das Gesicht einer Person in eine komprimierte Darstellung kodieren und aus dieser wieder ein Gesicht rekonstruieren. Durch das Training zweier Autoencoder – einer für das Quellgesicht und einer für das Zielgesicht – mit einem gemeinsamen Encoder kann das System lernen, Merkmale des Quellgesichts auf das Zielgesicht zu übertragen, wodurch ein überzeugender Deepfake entsteht. 

  • Um ein Deepfake zu erstellen, wird Bild- oder Videomaterial der zu imitierenden Person benötigt. Dank fortschrittlicher Lernmethoden reichen oft schon ein kurzes Video oder wenige unterschiedliche Bilder aus. Diese Daten dienen als Grundlage für das Training künstlicher neuronaler Netzwerke, die lernen, Gesichter zu analysieren, zu rekonstruieren und zu manipulieren.

     

    Ein wesentlicher Aspekt moderner Deepfake-Technologie ist die Fähigkeit, nicht nur oberflächliche Merkmale zu reproduzieren, sondern auch subtile Eigenschaften wie Gesichtsausdrücke, Alter oder Emotionen zu erfassen und zu imitieren. Dies wird durch komplexe Modelle erreicht, die tiefgreifende Repräsentationen von Gesichtsattributen erstellen können.

     

    Die Erstellung überzeugender Deepfakes erfordert mehr als nur die Manipulation von Gesichtszügen. Moderne Techniken berücksichtigen dreidimensionale Aspekte des Gesichts, was eine präzisere Anpassung an verschiedene Kopfposen und Beleuchtungsbedingungen ermöglicht. Dies führt zu deutlich realistischeren Ergebnissen, insbesondere bei der Anpassung an unterschiedliche Perspektiven und Lichtverhältnisse.

     

    Bei der Frame-für-Frame-Ersetzung des Gesichts im Zielvideo kommen fortschrittliche Techniken zum Einsatz, die weit über einfache Überlagerungen hinausgehen. Diese Methoden erzeugen nahtlose Übergänge und passen sich dynamisch an Veränderungen in der Szene an, was zu einer natürlicheren Integration des manipulierten Gesichts führt.

     

    Die Synthese von Audiodaten stellt eine zusätzliche Herausforderung dar. Moderne Ansätze zielen darauf ab, nicht nur die Stimme selbst, sondern auch Nuancen wie Sprachrhythmus und Intonation zu imitieren. Dies erfordert komplexe Modelle, die in der Lage sind, die feinen Details menschlicher Sprache zu erfassen und zu reproduzieren.

     

    Eine besondere Schwierigkeit bei der Erstellung von Deepfake-Videos ist die Sicherstellung zeitlicher Konsistenz. Es reicht nicht aus, einzelne Frames zu manipulieren; die Veränderungen müssen über die gesamte Dauer des Videos konsistent und fließend sein. Hierfür werden spezielle Techniken eingesetzt, die die Beziehungen zwischen aufeinanderfolgenden Frames berücksichtigen und eine natürliche Bewegung sicherstellen.

     

    Die Qualität moderner Deepfakes ist so hoch, dass selbst fortschrittliche Erkennungsmethoden an ihre Grenzen stoßen. Aktuelle Forschungsansätze zur Erkennung konzentrieren sich daher auf die Analyse subtiler Signale, die bisher schwer zu fälschen sind, wie beispielsweise mikroskopische Gesichtsausdrücke oder physiologische Merkmale, die in Videos sichtbar sein können.

  • Es gibt verschiedene Arten von Deepfakes, die je nach Anwendung und Ziel eingesetzt werden:

    1. Face-Swap: Das Gesicht einer Person wird in einem Bild oder Video durch das einer anderen ersetzt.
    2. Audio-Deepfake: Die Stimme einer Person wird synthetisch nachgestellt.
    3. Puppet-Master: Mimik und Kopfbewegungen einer Person im Video werden manipuliert.
    4. Lip-Syncing: Lippenbewegungen werden so angepasst, dass sie zu einer anderen Tonspur passen.
    5. Gesichtssynthese: Komplett künstliche, realistische Gesichter werden erstellt.
  • Trotz der potenziellen Gefahren bietet die Deepfake-Technologie auch Chancen für innovative Anwendungen in verschiedenen Bereichen:

    • Mode und E-Commerce: Virtuelle Anprobe von Kleidung am eigenen digitalen Spiegelbild.
    • Lokalisierung von Medien: Verbesserte Lippensynchronisation bei der Übersetzung von Filmen und Videos.
    • Bildung und Geschichte: Interaktive Geschichtslektionen mit zum Leben erweckten historischen Persönlichkeiten.
    • Filmindustrie: Visuelle Effekte für die Wiederbelebung verstorbener Schauspieler oder realistische Alterseffekte.
    • Medizin: Realistische Simulationen von Patienten und Krankheitsbildern für die medizinische Ausbildung.
    • Kunst und Kreativität: Neue Formen des künstlerischen Ausdrucks und innovative Werke.
  • Deepfakes stellen eine ernsthafte Bedrohung dar und wurden bereits für verschiedene kriminelle Zwecke eingesetzt:

    • Politische Manipulation: Ein gefälschtes Video des ukrainischen Präsidenten, das ihn bei der Kapitulation zeigte (2022).
    • Betrug: Ein Geschäftsführer wurde Opfer eines Audio-Deepfake-Betrugs und überwies 243.000 US-Dollar an Betrüger.
    • Pornografie ohne Einwilligung: Ein Telegram-Bot erstellte gefälschte Nacktbilder von über 100.000 Frauen.
    • Wahlbeeinflussung: In Moldawien wurden Deepfake-Videos in Facebook-Anzeigen zur Wählerbeeinflussung eingesetzt.
  • Das Erkennen von Deepfakes wird zunehmend schwieriger, aber es gibt einige Anzeichen, auf die man achten kann:

    • Unnatürliche Gesichtsbewegungen oder Mimik
    • Verschwommene Übergänge am Gesichtsrand
    • Unpassende Beleuchtung oder Schatten
    • Unstimmige Körperproportionen
    • Abweichungen in der Stimme oder Sprechweise
    • Falsche Aussprache bestimmter Wörter
  • Die Erkennung von Deepfakes ist ein komplexes und dynamisches Feld, das sich parallel zur Entwicklung der Deepfake-Erstellungstechnologie ständig weiterentwickelt. Die Ansätze zur Erkennung sind vielfältig und reichen von der Analyse visueller Artefakte bis hin zu fortschrittlichen Verhaltensuntersuchungen.

     

    Frühe Erkennungsmethoden konzentrierten sich primär auf die Identifizierung visueller Unregelmäßigkeiten, die durch den Deepfake-Prozess entstehen, wie unnatürliche Augenbewegungen oder inkonsistente Beleuchtung. Mit fortschreitender Technologie wurden diese Artefakte jedoch subtiler, was zu einer Verschiebung hin zu komplexeren Analysemethoden führte.

     

    Moderne Ansätze umfassen die Verhaltensanalyse der dargestellten Person, einschließlich der Untersuchung von Mikro-Expressionen und physiologischen Signalen, die in natürlichen Videos vorhanden, aber in Deepfakes oft ungenau reproduziert sind. Bei Video-Deepfakes spielt zudem die Erkennung temporaler Inkonsistenzen eine wichtige Rolle, da die Aufrechterhaltung der Konsistenz über mehrere Frames hinweg eine große Herausforderung für Fälscher darstellt.

     

    Fortschrittliche Techniken gehen noch weiter und analysieren biometrische Merkmale wie Herzschlagmuster oder einzigartige Sprechmuster, die aus subtilen Veränderungen in der Haut oder der Stimme abgeleitet werden können. Diese Merkmale sind äußerst schwierig zu fälschen und bieten daher einen vielversprechenden Ansatz für die Erkennung.

     

    Die Analyse digitaler Fingerabdrücke, die von Kameras und digitalen Bearbeitungsprozessen hinterlassen werden, stellt einen weiteren wichtigen Aspekt der Deepfake-Erkennung dar. Jedes Gerät und jeder Bearbeitungsschritt hinterlässt charakteristische Spuren, die von Erkennungssystemen genutzt werden können, um Manipulationen zu identifizieren.

     

    Über die rein technischen Aspekte hinaus gewinnt auch die kontextuelle Analyse an Bedeutung. Hierbei wird der Inhalt des Deepfakes in einen breiteren Zusammenhang gestellt, was die Überprüfung der Konsistenz mit anderen bekannten Fakten oder die Analyse begleitender Texte oder Audioinhalte umfassen kann.

     

    Die effektivsten Erkennungssysteme kombinieren mehrere dieser Methoden in einem multimodalen Ansatz. Sie analysieren gleichzeitig visuelle, auditive und kontextuelle Elemente, um ein ganzheitliches Bild zu erstellen und die Genauigkeit der Erkennung zu erhöhen.

     

    Eine der größten Herausforderungen in diesem Bereich ist das ständige Wettrüsten zwischen Deepfake-Erstellung und -Erkennung. Sobald eine neue Erkennungsmethode entwickelt wird, passen sich die Erstellungstechniken an, um diese zu umgehen. Dies erfordert einen kontinuierlichen Prozess der Innovation und Anpassung auf Seiten der Erkennungstechnologien.

     

    Zudem stellt die Skalierbarkeit eine bedeutende Hürde dar. Während es möglich ist, einzelne Inhalte detailliert zu analysieren, ist die Verarbeitung der enormen Menge an täglich produzierten und geteilten Medieninhalten eine technische und logistische Herausforderung.

  • Um sich vor den Gefahren von Deepfakes zu schützen, können folgende Maßnahmen ergriffen werden:

    • Kontrolle über persönliche Daten und Bilder im Internet
    • Kritischer Umgang mit Medieninhalten, besonders in sozialen Netzwerken
    • Mehrere vertrauenswürdige Quellen zur Verifizierung von Informationen nutzen
    • Nutzung von Technologien zur Deepfake-Erkennung
    • Förderung von Medienkompetenz und digitaler Bildung
  • Wenn Sie einen Deepfake erkannt haben, sollten Sie folgende Schritte unternehmen:

    1. Melden Sie den Inhalt an die Plattform, auf der er veröffentlicht wurde
    2. Informieren Sie die betroffene Person oder Organisation
    3. Dokumentieren Sie den Vorfall für mögliche rechtliche Schritte
    4. Unterstützen Sie die Verbreitung korrekter Informationen und teilen Sie den Deepfake nicht weiter