GenAI – ein großes Datendilemma

Martyn Ditchburn  |
Freizugängliche KI Fraud-Studie KI macht's möglich Sicherheit? AI Artificial Intelligence Künstliche Intelligenz Generative K.I. Gefahrenquellen 2024GenAI Skynet

Generative KI (GenAI) verspricht Unternehmen weltweit einen Wettbewerbsvorteil und ist daher in aller Munde. IT-Abteilungen müssen evaluieren, wie sie diese neue Technologie nutzen können und dazu neben den Potentialen auch potenzielle Risiken berücksichtigen. Bisher konzentrieren sich die mit dem exponentiellen Anstieg dieser Technologie einhergehenden Überlegungen meist auf die Logistik der Datenerfassung. Dabei stehen Rechenleistung, Infrastruktur, Datenvorhaltung und die Expertise rund um das Thema KI im Mittelpunkt.

Der kometenhafte Aufstieg der GenAI wirft jedoch auch grundlegendere Fragen zur Ethik der Datennutzung auf. Die Diskussionen dürfen sich nicht mehr ausschließlich um das Wie drehen, sondern auch die Frage in den Mittelpunkt rücken, ob und welche Daten eingesetzt werden sollen. Das ethische Dilemmata im Zusammenhang mit Daten und GenAI muss in die Planung von langfristigen KI-Strategien einfließen.

Datendilemma 1: Debatte um die Nutzung von öffentlichen versus privaten Daten

Trotz aller Versprechungen sind die Resultate von GenAI nur so gut wie die Datenquellen, die zur Verfügung stehen. Daher mag es verlockend erscheinen, so viele Daten für die Nutzung wie möglich zur Verfügung zu stellen. Doch das ist nicht so einfach, da Fragen zum Datenschutz, zur Voreingenommenheit und Ungleichheit berücksichtigt werden müssen. Grundsätzlich können Daten in zwei Kategorien unterteilt werden – öffentliche und private. Öffentlich verfügbare Daten sind objektiver und anfälliger für Verzerrungen als private, denn man könnte die Sichtweise annehmen, dass letztere Fakten darstellen, während erstere das zeigen, was die Welt sehen soll. Private Daten sind demnach wertvoller, aber auch sensibler und vertraulicher.

Theoretisch müssten Vorschriften wie der AI Act der EU oder die Executive Order aus den USA die Nutzung privater Daten einschränken und den Unternehmen die Entscheidung abnehmen. In der Praxis jedoch unterscheiden nicht alle Länder weltweit zwischen privaten und öffentlich zugänglichen Informationen. Zu strenge, lokale Vorschriften sind vermutlich nur begrenzt wirksam und das Internet macht nicht an Landesgrenzen halt. Diejenigen Unternehmen, die sich aufgrund lokaler Regularien an die Nutzung eingeschränkter Datensätze halten, laufen Gefahr, dass ihre GenAI-Modelle voreingenommen Schlussfolgerungen liefern.

Der Bereich des geistigen Eigentums (IP) ist ein gutes Beispiel für eine ähnliche regulatorische Situation. Länder, die solchen Regularien folgen, können möglicherweise ins Hintertreffen geraten. Und es sind nicht nur andere Unternehmen, die von dieser Ungleichheit bei der Verwendung von Daten profitieren könnten. Auch Cyberkriminelle werden sich bei ihren Angriffen nicht an eine ethische Verwendung von künstlicher Intelligenz und Datenschutzgesetzen gebunden fühlen. Dies setzt jene, die sich an die Regeln halten, effektiv einem Nachteil aus.

Datendilemma 2: Die Frage der Datenvorhaltung – DSGVO versus GenAI

GenAI-Modelle werden anhand von Datensätzen trainiert. Je größer die Menge an Daten, desto detaillierter kann das Modell operieren und genauere Schlussfolgerungen liefern. Aber diese Datensätze müssen auch stabil vorgehalten werden können. Durch das Entfernen von Daten wird der Basis Lernmaterial entzogen, was in der Folge die Ergebnisse des Algorithmus verändern könnte.

Eine eingeschränkte Nutzung von Daten ist allerdings das, was die DSGVO Unternehmen vorschreibt. Daten sollten nur so lange aufbewahrt werden, wie es für ihre Verarbeitung erforderlich ist. Auch dem Recht des Einzelnen, nach dem „Right to be forgotten“ auf die Löschung von persönlichen Daten zu dringen, muss nachgekommen werden. Abgesehen von den sich daraus ergebenden finanziellen und nachhaltigen Folgen, dass Unternehmen ihre GenAI-Modelle neu trainieren müssen, könnte beispielsweise das Löschen von Daten im Fallbeispiel eines selbstfahrenden Autos sehr reale Auswirkungen auf die Sicherheit haben. Unternehmen müssen sich demnach vorab darüber Gedanken machen, wie sie diese Anforderungen ins Gleichgewicht bringen.

Datendilemma 3: Das Training von GenAI ohne vertrauliche Daten

Unternehmen sind gesetzlich zur Sicherung der Datenbestände verpflichtet, da sonst erhebliche Geldstrafen drohen. Voraussetzung für die Absicherung ist eine Klassifizierung nach Kritikalität. Denn eine solche Kategorisierung ermöglicht Einblick, mit welchen Daten gearbeitet werden kann. Aufgrund der enormen Datenmengen, die Unternehmen heutzutage produzieren, greifen sie in zunehmendem Maße auf GenAI zurück, um den Kategorisierungsprozess zu beschleunigen. Und hier liegt die Crux: Vertrauliche Daten sollten mit der höchsten Sicherheitsklassifizierung geschützt und somit von GenAI-Engines ferngehalten werden.

Aber wie kann man KI-Systeme darauf trainieren, vertrauliche Daten zu erkennen und zu vermeiden, ohne ihnen konkrete Beispiele für solche Daten zu geben? Eine aktuelle Umfrage von Zscaler zeigt, dass lediglich 46 Prozent der befragten Unternehmen weltweit zuversichtlich sind, ihre Daten hinsichtlich ihrer Kritikalität kategorisiert zu haben. Das bedeutet, dass dies für die meisten Entscheider ein dringliches Problem darstellt, das gelöst werden muss.

 Verantwortung für GenAI-Modelle übernehmen

Die aufgezeigten Dilemmas sind nur drei von vielen Fragestellungen, mit denen sich Unternehmen konfrontiert sehen, wenn sie ihren GenAI-Ansatz planen. Sie haben die Wahl zwischen einer abwartenden Haltung, bis externe Regeln festgelegt sind, oder sie ignorieren diese, um ihre GenAI-Implementierungen schneller voranzubringen.

Bei der Beantwortung dieser Frage hilft die Parallele zur CO2-Bilanzierung. Bis die Mühlen der Gesetzgebung in Schwung kamen, sind Jahre verstrichen. Es ist anzunehmen, dass dies auch für Regularien rund um GenAI zutreffen wird. In diesem Beispiel haben viele Unternehmen den Schritt gewagt in Vorleistung zu gehen und die Erhebung ihres CO2-Fußabdrucks selbst zu bestimmen – aufbauend auf dem Druck der Konsumenten. Hier waren es die Kunden, die durch ein geändertes Einkaufsverhalten Veränderungen in Gang gesetzt haben, indem sie ihre Kaufgewohnheiten an der Umweltfreundlichkeit eines Unternehmens ausrichten. Es bleibt abzuwarten, ob dieses Regulierungsprinzip erneut für den unethischen Einsatz von Künstlicher Intelligenz greifen wird.

Was ist zu tun, damit Unternehmen ihren GenAI-Ansatz eigenverantwortlich steuern und dabei die Dilemmas berücksichtigen? Die folgenden sieben Punkte geben IT-Abteilungen Orientierungshilfe zum sicheren und ethischen Einsatz von GenAI:

  • Öffentliche und private Daten strikt getrennt halten und die Verwendung privater Daten so weit wie möglich einschränken. Aus wettbewerblicher Sicht mag dies von Nachteil sein, aber aus ethischer Sicht ist es eine Empfehlung.
  • Die Trennung der Datentypen auf KI-Engines ausweiten. IT-Verantwortliche sollten private KI für private Datenquellen in Betracht ziehen und diese Kategorie an Daten nicht für öffentliche KI-Engines einsetzen.
  • Voreingenommenheit berücksichtigen. KI-Tools sollten eingeschränkt eingesetzt werden, wenn sie auf der Grundlage öffentlich verfügbarer und nicht verifizierter Informationen Schlussfolgerungen ziehen. Die eigenen Ergebnisse sollten immer validiert werden.
  • Existierende Regularien sollten Priorität haben – die DSGVO und das “Right to be forgotten” müssen einkalkuliert werden. Darauf ausgelegt sollte die Wiederholung von AI-Processing eingeplant und in Budgets berücksichtigt werden.
  • Verwendung von vortrainierten KI-Modellen oder synthetischen Datensätzen können ein eigenes Modell stabilisieren und gegebenenfalls das Problem mit der Arbeit an vertraulichen Datensätzen vermeiden.
  • Der Schutz privater Datenquellen muss oberste Priorität erhalten. Die Vereinfachung menschlicher Aufgaben wie z.B. Datenkategorisierung sollte nicht zum versehentlichen Datenleck führen. Manchmal ist die Antwort nicht GenAI.
  • Der Schutz privater Daten sollte auch auf die Belegschaft ausgeweitet werden. Richtlinien für die Verwendung von GenAI inklusive Schulungen tragen zum Verständnis bei, welche Daten und Informationen sicher in die Tools hochgeladen werden dürfen.

Es besteht Handlungsbedarf

Die IT- und Sicherheitsabteilungen von Unternehmen stehen unter Druck, ihre Strategien zum Einsatz von GenAI so schnell wie möglich voranzutreiben, um Vorteile aus deren Einsatz zu ziehen. Die Umfrage „All eyes on securing GenAI“ zeigt, dass bereits 95 Prozent der Unternehmen GenAI-Tools in irgendeiner Form einsetzen und 51 Prozent erwarten, dass ihre Nutzung trotz Sicherheitsbedenken bis zum Jahresende weiter steigen wird. Aber sie müssen unter der Berücksichtigung der aufgeführten Dilemmas Wege für den Einsatz dieser Tools finden und Maßnahmen ergreifen, die den ethischen Umgang mit Informationen berücksichtigen.

Autor

Weitere Inhalte zum Thema

Nichts mehr verpassen?

Newsletter IT-Sicherheit
Marktplatz IT-Sicherheit Skip to content