Datensicherheit bei Generativer KI - Geht das?

Drache mit einem Schutzschild mit einem Paragraphen darauf

In NGOs und Vereinen zögern viele von euch beim Einsatz von KI-Tools weil sie unsicher mit dem Datenschutz sind. Die meisten glauben auch, dass sie KI trainieren, wenn sie Daten eingeben. Das stimmt zwar so nicht, aber dennoch ist der Datenschutz bei KI-Systemen wirklich schwierig.

Deshalb hier die Basics zum Verstehen der verschiedenen technischen Ebenen und meine drei Vorgehensweisen als Video und im Kurz-Beitrag.

(Ich bin keine Juristin und dies ist keine Rechtsberatung.)

1. Der selektive Ansatz: Keine sensiblen Daten teilen

Die meisten KI-Tools wie ChatGPT speichern deine Ein- und Ausgaben als Nutzungsdaten in amerikanischen Clouds. Ohne rechtsgültige Auftragsverarbeitung haben personenbezogene und sensible Daten dort nichts verloren. Selbst wenn Tools wie ChatGPT die Option bieten, das Training mit deinen Daten zu deaktivieren, ändert das nichts an der fehlenden Auftragsverarbeitung.
Meine Faustregel: Gib nur Daten ein, die auch öffentlich werden dürften.

2. Ein bisschen mehr Datenschutz: Europäische Hosting-Lösungen

Da ihr mit euren Daten nie direkt KI trainiert, sondern nur Kontext liefert, lassen sich technische Zwischenlösungen finden. (Mehr zur Funktionsweise und dem Nicht-Training lest ihr in meinem Blogbeitrag: Die 3 größten Irrtümer über KI.)

Ihr könnt als Tool einen Anbieter in D/Europa wählen, der eure Nutzungsdaten in D/Europa mit Auftragsverarbeitung und meist auch verschlüsselt speichert. Z.B. Fobizz, Langdock, Nele.ai, ggf. auch Copilot oder ChatGPT Enterprise.

Für die Berechnung eurer Antworten könnt ihr bei den meisten Anbietern zwischen verschiedenen Modellen von ChatGPT, Claude, Gemini, Mistral etc. wählen. Oft könnt ihr auch den Modellort auf Europa einschränken. Euer Tool-Anbieter wiederum vereinbart mit den Betreibern OpenAI, Anthropic oder Google, dass eure Daten beim Nutzen der Modell über Schnittstellen (sog. API) nicht zum Training genutzt werden und teilweise dort auch gar nicht gespeichert werden.

Es bleiben 2 Probleme: Halten sich US-Anbieter wirklich an diese Vereinbarungen? Und: Die meisten dieser Modelle laufen dennoch in US-amerikanischen Clouds. Das heißt die physischen Server stehen zwar in Europa, aber die Firma ist US-Amerikanisch meist Microsoft (Azure) oder Amazon (AWS Hosting). Für diese Firmen gilt der Cloud Act der USA, der nicht weniger sagt, als dass US-Regierungsbehörden Zugriff gewährt werden muss.

Daher: Wenn ihr mit sensiblen oder personenbezogenen Daten arbeiten wollt, müsst ihr solche Tools auf Herz und Nieren mit euren Datenschutzbeauftragten checken. Denn so ganz wirklich sicher ist das selten bis nie.

3. Die Königsklasse: Eigene Modelle auf eigenen Servern

Ein niedlicher Roboterdrache baut mit Legosteinen

Die sicherste – aber auch aufwändigste – Lösung ist das Hosting eigener KI-Modelle. Dank OpenSource-Lösungen wie Llama oder Mixtral ist dies inzwischen realistisch. Diese Modelle kommen in den Fähigkeiten nämlich immer besser an die kommerziellen Angebote wie ChatGPT oder Claude heran.
Die Herausforderung für das Hosting liegt im Ressourcenbedarf: Eigene Modelle benötigen leistungsstarke Server und die Administration dann auch technische Fachkenntnis. Allerdings entwickeln sich immer mehr kleinere Modelle, die dann auch auf dem eigenen Rechner oder kleinen Server betrieben werden und viele Alltagsaufgaben gut bewältigen. Checkt dazu z.B. mal https://www.nomic.ai/gpt4all.

Mein Traum: Ich hoffe, dass wir uns bald als zivilgesellschaftliche Akteure zusammentun, um gemeinsam große, flexible Modelle zu betreiben – sicher und transparent. Das würde den KI-Einsatz in sensiblen Bereichen revolutionieren!

Meine praktische Lösung: Kombination aus Ansatz 1 und 2

In meiner täglichen Arbeit verbinde ich die ersten beiden Strategien: Ich verzichte auf die Eingabe sensibler Daten und nutze Hosting-Lösungen, die meinen Datenschutzanforderungen entsprechen. Dabei teile ich keine besonders sensiblen Daten.

P.S. Eine Vorlage für entsprechende KI-Leitlinien für Vereine habe ich auch geschrieben:
www.juliajunge.de/leitlinien

Mehr verstehen

Möchtest du dich vertiefen und lernen, wie du KI sicher und effektiv in deinem Team einsetzen kannst? Dann komm doch gern zu einem meiner Kurse:

Datensicherheit bei Generativer KI – Geht das?

1. Der selektive Ansatz: Keine sensiblen Daten teilen

2. Ein bisschen mehr Datenschutz: Europäische Hosting-Lösungen

3. Die Königsklasse: Eigene Modelle auf eigenen Servern

Meine praktische Lösung: Kombination aus Ansatz 1 und 2

Mehr verstehen

Code of Good Practice

Digital Media Women