Abstract: Dieser Artikel beschreibt die prinzipiellen technologischen Überlegungen hinter der KI-gestützten Produktion, von qualitativen synthetischen Medien: Deepfakes. Er konzentriert sich dabei auf die am häufigsten angewendeten Modelle – die Generative Adversarial Networks: Ein spezieller Typus von Künstlichen Neuronalen Netzen.
Bottom-line-up-front: Deepfakes werden das Bedrohungspotential von Desinformationskampagnen, die von staatsnahen Akteuren geleitet werden, nicht wesentlich erhöhen.
Problemdarstellung: Welche Bedrohung stellen Deepfakes in Hinblick auf technische Gegenbenheiten durch Cyberkriminaltiät und erweiterte Angriffsmöglichkeiten dar?
Was nun?: Die westliche Staatengemeinschaft muß ein glaubwürdiges Portfolio an Abschreckunskapazitäten entwickeln. Diese sollten sich nicht nur auf die Technik konzentrieren. Es ist höchste Zeit, die diesbezüglichen Fähigkeiten der Sozialwissenschaften einzubinden.
Source: shutterstock.com/shuttersv
Die Technologie hinter „Deepfakes“
Deepfakes werden gegenwärtig als maximale Eskalationsstufe der „Fakenews“-Debatte in der Internationalen Politik betrachtet.[1] „Deepfakes“ – eine Begriffskreation aus „Deep Learning“ und „Fakenews“ – beschreibt die durch „Künstliche Intelligenz“ (KI) ermöglichte Produktion von täuschend-echten Medien, die durch Verbreitung via Social Media-Kanälen als wahrhaft dystopisch, vor allem für westliche Demokratien betrachtet werden.[2] Die KI-Expertin der MIT Technology Review hat 2020 sogar zum Jahr auserkoren, in dem „Deepfakes zum Mainstream wurde“.[3] Ob hier nicht eine gehörige Portion technologischer Überschwang mitschwingt, sei dahingestellt. Auf jeden Fall hat sich die Technologie seit Samantha Coles Entdeckung von Reddits „FakeApp“ im Jahr 2017[4] und der Entdeckung des Linkedin-Profils von „Katie Jones“ – mit einem Deepfake-Profilbild ausgestattet – im Juni 2019, entscheidend weiterentwickelt.[5]
Die wenigen, bisher bekannten positiven Einsatzfelder von Deepfakes wirken nicht sehr überzeugend: Im Film „Welcome to Chechnya“ wurde die Identität von LGBT-Aktivisten in Tschetschenien damit verschleiert. Im Bereich Gesundheit und Patientensicherheit können Patientendaten sicherer transferiert werden[6] und Patrick Plaisance vermutet eine mögliche Vereinfachung in der Zukunft des Fundraising: Prominente Testimonials können durch synthetische Medien leichter in Kampagnen eingebunden werden.[7]
Die wenigen, bisher bekannten positiven Einsatzfelder von Deepfakes wirken nicht sehr überzeugend: Im Film „Welcome to Chechnya“ wurde die Identität von LGBT-Aktivisten in Tschetschenien damit verschleiert.
Welche Technologie steckt dahinter?
Die Technologie hinter den „Deepfakes“ gehört zur Basistechnologie der „Künstlichen Intelligenz“. Genauer, dem „Maschinellen Lernen“ (ML). Maschinelles Lernen beschreibt Algorithmen, die basierend auf Datenmaterial eigene, synthetische Daten gerieren können, und deren Performance-Qualität durch die Wiederholung von „Trainingszyklen“ zunimmt; sprich, „dazu lernen“ können. „Deepfakes“ werden aus einer Kombination und Variation von 6 verschiedenen Basistypen von „Generative Neuronal Networks“ entwickelt: Künstliche Neuronale Netze, das sind Algorithmen, die dem menschlichen Gehirn nachempfunden sind. Als „generative“ werden Modelle bezeichnet, wenn sie in der Lage sind neue Datensätze basierend auf vorgegebenem Datenmaterial, sogenannte „Trainingsdaten“, zu gerieren.
Generative Adversarial Networks (GAN’s) sind eine spezielle Anwendung davon und die Technologie hinter den meisten bekannten Deepfakes der letzten Jahre. Erstmal wurden sie von Ian Goodfellow 2014 erwähnt.[8] Sie verwenden zwei konkurrierende Modelle, die paarweise arbeiten: Den „Diskriminator“ und den „Generator“. Der Generator erzeugt basierend auf gegebenem Datenmaterial – Daten von Überwachungsdrohnen bis hin zum Twitter-Feed – synthetische Daten mit dem Ziel den Diskriminator zu „täuschen“. Der Diskriminator zwingt den Generator solange synthetische Daten zu gerieren, bis er keinen Unterschied mehr zwischen Original und Imitation unterscheiden kann, sich also nicht mehr täuschen läßt.
Der Generator erzeugt basierend auf gegebenem Datenmaterial – Daten von Überwachungsdrohnen bis hin zum Twitter-Feed – synthetische Daten mit dem Ziel den Diskriminator zu „täuschen“. Der Diskriminator zwingt den Generator solange synthetische Daten zu gerieren, bis er keinen Unterschied mehr zwischen Original und Imitation unterscheiden kann, sich also nicht mehr täuschen läßt.
Diese Vergleichszyklen von Trial-and-Error Prozessen werden als „Training“ bezeichnet. Dabei extrahiert das ML-System bestimmte Muster aus diesen verarbeiteten Daten, die auch als „Representations“ bezeichnet werden, und bietet „Understandings“ – also Einsichten in Parameter und deren Kombinationen. Das System „lernt“, in dem diese „Understandings“ mit den Parametern der Modelle abgeglichen werden. Solche Zyklen werden hundertausendfach durchlaufen, solange bis der Trainingsprozess abgeschlossen ist.
Unterschiedliche ML-Systeme „lernen“ von Daten auf verschiedene Art und Weise. Es wird dabei aber stets das Modell an die jeweilige Art von Trainingsdaten angepaßt. Wichtig ist festzuhalten, dass das System nicht weiß, welche Muster sinnvoll zu erlernen sind und welche nicht. Es extrahiert einfach Datenmuster. In manchen Fällen kann das Modell auch nach Abschluß des Trainings noch verändert werden.
GAN’s können aktuell synthetische Bilder bis zu einer maximalen Auflösung von 1024 x 1024 Pixel gerieren.[9] Dafür wird eine Datenmenge von 30.000 Bilder (mit derselben Auflösung) als Quelle benötigt. Der Trainingszyklus dafür dauert vier Tage, auf 8 GPU’s laufend.[10] SAGAN und BigGAN sind beide aktuelle Beispiele, die beide mit ImageNet trainiert wurden. Eine Datenbank bestehend aus 14. Mio Bildern, die in 20.000 Kategorien unterteilt ist.[11] SAGAN produziert synthetische Bilder bis zu einer Auflösung von 128 x 128 Pixel – mit zwei Wochen Training auf 4 GPU’s.[12] Das leistungsfähigere BigGAN-Modell, erreicht eine Auflösung von 512 x 512 Pixel, und das nach nur 24 bis 48 Stunden Training.[13] BigGAN wurde mit Googles TPUv3 trainiert. TPU’s sind eine Weiterentwickung von GPU’s, und werden seit 2018 zur Beschleunigung von ML-Trainingsprozessen entwickelt. Die neuesten GAN-Modelle wie z.Bbeispielsweise Nvidia’s StyleGAN 2 können künstliche Bilder von menschlichen Gesichtern mit hochqualitativen Details wie Haut und Haaren erzeugen, mit hochqualitativen Details wie Haut und Haare.
Große Modelldatensätze bilden das notwendige Rückgrat für das ML-Training. Solche, mit denen der Fortschritt von Trainingzyklen beurteilt wird, sind besonders wichtig. Einer der wichtigsten ist der Bilderkennungsdatensatz ImageNet. Maschinelles Lernen braucht große Mengen an Daten, die vorher gesammelt werden müssen. Es soll hier deutlich formuliert sein, dass die Realität völlig konträr zur „Big Data“-Debatte ist, die suggeriert, dass eine große Menge an Datenmaterial eine hinlängliche Bedienung für bahnbrechende Erkenntnisse ist. Das ist nicht der Fall.
Obwohl es einerseits Softwarepakete gibt, wie Reddits „FakeApp“ oder die chinesische App „Zao“,[14] die es jedem Laien ermöglichent, Deepfakes zu entwickeln, darf sich deren Entwicklung, also vor dem Abschluß der Trainingsphase, nicht als simple Routine vorgestellt werden: GAN’s sind immer noch komplexe Tools, sogar für geübte Anwender. Der Durchlauf der Zyklen verläuft oft instabil und endet oft mit einem „Modellkollaps“. Diese kollabierten Modelle, sind dann völlig nutzlos. Die technische Expertise -– hier vor allem die praktische Erfahrung -– der Anwender, ist von entscheidender Bedeutung.
Desinformationskampagnen
Die technischen Möglichkeiten mittels Deepfakes Desinformationskampagnen zu leiten wird zweifellos zunehmen. Der Punkt ist, ob der prognostizierte Anstieg an technologischer Leistungsfähigkeit nicht an den eigentlichen Zielen derartiger Akteure vorbeigeht. Denn das wesentliche Risiko, den Urheber von Deepfakes zu identifizieren, hat durch die komplexen Modelle nicht ab-, sondern zugenommen. Leistungsfähige Modelle liefern eine Art Fingerabdruck mit. Deepfake-Erkennungssoftware wie XceptionNet behauptet einen Grad an Identifizierung von Deepfakes von 90 Prozent. Dieses Modell wurde aus einem Datensatz von 1,8 Mio manipulierten Bilden trainiert.[15]
Denn das wesentliche Risiko, den Urheber von Deepfakes zu identifizieren, hat durch die komplexen Modelle nicht ab-, sondern zugenommen.
Der „Markt“ wird sich, aller Vorraussicht nach, in zwei Gruppen teilen: Ein Staatsnaher, der, wenn auch meist nicht offiziell, Teil staatlicher Sicherheitsstrukturen ist; der mit umfangreichem technologischem Knowhow, leistungsfähiger Hardware und optimalem Datenmaterial ausgestattet ist. Für diesen wird es möglich sein die aufwendige Handhabung der Planung und Entwicklung der technologischen Möglichkeiten im Bereich „Deepfakes“ zu handhaben. Ein Beispiel hiefür ist das 2018 veröffentlichte „vid2vid“- Modell, dass synthetische Videos erzeugen, aber für ein 30 Sekunden Video auf 8 GPU’s 10 Tage trainiert werden muß.[16] Andererseits wird es die „Good enough“-Lösungen für kriminelle Gruppierungen geben, die sich in den meisten Fällen auf Erpressung und Rufschädigung konzentrieren. Hierfür haben sich begrenztere Modelle bewährt, da diese wesentlich weniger Datenmaterial und Trainingszeit benötigen. Es wird nur äußerst selten Software selbst „trainiert“, da potentielle Anwender nicht über Zeit und/oder Mittel verfügen. Außerdem ist die notwendige Software als Open Source oder Teil von Softwarepakteten erhältlich.[17]
Diese Modelle beschränken sich in der Regel darauf ein Gesicht in einem Bild oder Video durch ein anderes zu ersetzen: Das sogenannte „Faceswap“. Von einer bestimmten Person wird einfach ein synthetisches Video erzeugt, in dem sie in einer anderen Szene die Handlungen ausführt, die von der Quelle übernommen wurden. Das fast schon klassische Beispiel ist hier der Tausch von Politiker-Identitäten am Rednerpult. Auch hier haben sich GAN’s bewährt. Jüngst wurde MetaPix vorgestellt, das zeigt, dass eine „Do As I Do“ – Produktion synthetischer Videos mit wenigen Frames von „Zielen“ auskommt und auf 4 GPU’s mit nur einem Tag Training auskommt.[18] Viele diese einfacheren Modelle haben auch den Vorteil, dass die sogar auf CPU’s trainiert werden können und keine aufwendige und teure GPU-Hardware benötigen.[19]
Bernhard Seyringer ist Politikanalyst und Autor. Bei den in diesem Artikel vertretenen Ansichten handelt es sich um die des Autors.
[1] Robert Chesney, Daniela Citron, Deepfakes And The New Disinformation War, Foreign Affairs, 11.Dezember 2018, https://www.foreignaffairs.com/articles/world/2018-12-11/deepfakes-and-new-disinformation-war.
[2] Oscar Schwartz, ” You thought fake news was bad? Deep fakes are where truth goes to die,”. The Guardian., 14. November 2018,. https://www.theguardian.com/technology/2018/nov/12/deep-fakes-fake-news-.
[3] Karen Hao, Will Douglas Heaven, The Year Deepfakes Went Mainstream, MIT Technology Review, 24.Dezember, 2020, https://www.technologyreview.com/2020/12/24/1015380/best-ai-deepfakes-of-2020/.
[4] Samatha Cole, “AI-Assisted Fake Porn Is Here and We’re All Fucked,” Motherboard, 11.Dezember, 2017, https://www.vice.com/en_us/article/gydydm/gal-gadot-fake-ai-porn.
[5] Raphael Satter, “Experts: Spy Used AI-Generated Face to Connect with Targets,” Associated Press, 13 June 2019, https://www.apnews.com/.
[6] Geraint Rees, “Here’‟s how deepfake technology can actually be a good thing,”. 25 November 2019, https://www.weforum.org/agenda/2019/11/advantages-of-artificial-intelligence/.
[7] Patrick L. Plaisance, “Ethics and “Synthetic Media,” 17 September 2019, https://psychologytoday.com/sg/blog/virtue- in-the-media-world/201909/ethics-and-synthetic-media.
[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, . 2014. Generative adversarial nets. In Advances in neural information processing systems, 2672–2680.
[9] Tero Karras, Samuli Laine, and Timo Aila, “A Style-Based Generator Architecture for Generative Adversarial Networks,” 12.Dezember 2018, https://arxiv.org/abs/1812.04948.
[10] Anmerkung: GPUs (Graphics Processing Unit) sind leistunsgfähiger als CPU’s und wurden ursprünglich zur verbessterne Grafikverabreitung entwickelt.)
[11] “ImageNet,” Stanford Vision Lab, http://www.image-net.org/.
[12] Han Zhang et al., “Self-Attention Generative Adversarial Networks,.” 21. Mai 2018, https://arxiv.org/abs/1805.08318.
[13] Andrew Brock, Jeff Donahue, Karen Simonyan, “Large Scale GAN Training for High Fidelity Natural Image Synthesis, 28 .September 2018, https://arxiv.org/abs/1809.11096.
[14] Colum Murphy and Zheping Huang, “A Popular Chinese App Lets Users Make Realistic Deepfakes,” Time, 4. September 2019, https://time.com/5668482/chinese-face-swap-app-zao-deep-fakes/.
[15] Andreas Rossler et al., “FaceForensics++: Learning to Detect Manipulated Facial Images.” 25.Januar, 2019, https://arxiv.org/abs/1901.08971.
[16] Ting-Chun Wang, “Video-to-Video Synthesis.” 20. August 2018, https://arxiv.org/abs/1808.06601.
[17] “DeepFaceLab,” Github, https://github.com/iperov/DeepFaceLab.
[18] Jessica Lee, Deva Ramanan, Rohit Girdhar, “MetaPix: Few-Shot Video Retargeting.” 10.Oktober, 2019, http://arxiv.org/abs/1910.04742.
[19] Literaturübersicht dazu: Caroline Chan et al., “Everybody Dance Now.” 22. August, 2018, http://arxiv.org/abs/1808.07371.