Datenschutz bei Generativer KI – Geht das?

Drache mit einem Schutzschild mit einem Paragraphen darauf, der Datenschutz symbolisiert

In NGOs und Vereinen zögern viele von euch beim Einsatz von KI-Tools weil sie unsicher mit dem Datenschutz sind. Die meisten glauben auch, dass sie KI trainieren, wenn sie Daten eingeben. Das stimmt zwar so nicht, aber dennoch ist der Datenschutz bei KI-Systemen wirklich schwierig.

Deshalb hier die Basics zum Verstehen der verschiedenen technischen Ebenen und meine drei Vorgehensweisen als Video und im Kurz-Beitrag.

(Ich bin keine Juristin und dies ist keine Rechtsberatung.)

1. Der selektive Ansatz: Keine sensiblen Daten teilen

Die meisten KI-Tools wie ChatGPT speichern deine Ein- und Ausgaben als Nutzungsdaten in US-amerikanischen Clouds. Ohne rechtsgültige Auftragsverarbeitung haben personenbezogene und sensible Daten dort nichts verloren. In vielen Tools wie ChatGPT könnt ihr der Nutzung zu Trainingszwecken in den Einstellungen/Datenkontrollen widersprechen, aber das ändert nichts daran, dass sie auf für euch unsicheren Servern gespeichert liegen.

Meine Faustregel: Gib nur Daten ein, die auch öffentlich werden dürften.

„Aber ich nutze ChatGPT ja anonym ohne Registrierung:
Das ist nicht anonym. Auch wenn ihr euch bei ChatGPT oder Mistral nicht registriert und einloggt, können eure Daten über eure IP-Adresse (die Adresse eures Computers) problemlos zu einem Profil zusammengefügt und für künftige Trainings genutzt werden. Besser ist daher: Registrieren und Datennutzung für das Training abschalten!

2. Ein bisschen mehr Datenschutz: Europäische Hosting-Lösungen

Da ihr mit euren Daten nie direkt KI trainiert, sondern nur Kontext liefert, lassen sich technische Zwischenlösungen finden. (Mehr zur Funktionsweise und dem Nicht-Training lest ihr in meinem Blogbeitrag: Die 3 größten Irrtümer über KI.)

Ihr könnt als Tool einen Anbieter in D/Europa wählen, der eure Nutzungsdaten in D/Europa mit Auftragsverarbeitung und meist auch verschlüsselt speichert. Z.B. Fobizz, Langdock, Nele.ai, ggf. auch Copilot oder ChatGPT Business.

Für die Berechnung eurer Antworten könnt ihr bei den meisten Anbietern zwischen verschiedenen Modellen von ChatGPT, Claude, Gemini, Mistral etc. wählen. Oft könnt ihr auch den Modellort auf Europa einschränken. Euer Tool-Anbieter wiederum vereinbart mit den Betreibern OpenAI, Anthropic oder Google, dass eure Daten beim Nutzen der Modell über Schnittstellen (sog. API) nicht zum Training genutzt werden und teilweise dort nicht mal zwischengespeichert werden.

Es bleiben 2 Probleme: Halten sich US-Anbieter wirklich an diese Vereinbarungen? Und: Die meisten dieser Modelle laufen dennoch in US-amerikanischen Clouds. Das heißt die physischen Server stehen zwar in Europa, aber die Firma ist US-Amerikanisch meist Microsoft (Azure) oder Amazon (AWS Hosting). Für diese Firmen gilt der Cloud Act der USA, der nicht weniger sagt, als dass US-Regierungsbehörden Zugriff gewährt werden muss.

Daher: Wenn ihr mit sensiblen oder personenbezogenen Daten arbeiten wollt, müsst ihr solche Tools auf Herz und Nieren mit euren Datenschutzbeauftragten checken. Denn so ganz wirklich sicher ist das selten bis nie.

Exkurs: Gratis-Tools, die sicher sind?

Technisch gesehen fallen auch KI-Tools wie www.duck.ai und www.lumo.proton.me in die Kategorie, der Tools mit ein bisschen Datenschutz. Duck.AI nutzt amerikanische Modelle, aber eure Nutzungsdaten bleiben temporär bzw. lokal. Die Nutzung zu Trainingszwecken ist ausgeschlossen. Lumo geht noch einen Schritt weiter und berechnet die Antworten auf eigenen sicheren KI-Modellen. Da aber in der Gratis-Version keine Auftragsverarbeitung gewährt wird, sind sie für eine berufliche Nutzung nicht geeignet. Für das sich erklären lassen des letzten Briefes vom Finanzamt sind sie aber die beste Option, wenn ihr nichts bezahlen wollt.

3. Die Königsklasse: Eigene Modelle auf eigenen Servern

Ein niedlicher Roboterdrache baut mit Legosteinen

Die sicherste – aber auch aufwändigste – Lösung ist das Hosting eigener KI-Modelle. Dank Open-Source-Lösungen wie Llama, Mistral, Deepseek, Qwen und Kimi ist dies realistisch. Diese Modelle kommen in den Fähigkeiten immer besser an die kommerziellen Angebote wie ChatGPT oder Claude heran.
Die Herausforderung für das Hosting liegt im Ressourcenbedarf: Eigene Modelle benötigen leistungsstarke Server und die Administration technische Fachkenntnis.

Allerdings entwickeln sich immer mehr kleinere Modelle, die dann auch auf dem eigenen Rechner oder kleinen Server betrieben werden und viele Alltagsaufgaben gut bewältigen. Checkt dazu z.B. mal https://www.nomic.ai/gpt4all.

Mein Traum: Ich hoffe, dass wir uns bald als zivilgesellschaftliche Akteure zusammentun, um gemeinsam große, flexible Modelle zu betreiben – sicher und transparent. Das würde den KI-Einsatz in sensiblen Bereichen revolutionieren! Ein erster Schritt dorthin wäre KI-Oberflächen auf Basis von LibreChat oder OpenWebUI aufzusetzen, und dann sowohl US-amerikanische starke Modelle als auch lokale, kleinere Modelle via API „anzuschließen“, um ohne Tool-Wechsel zu testen, wo wir wie mit welchen Modellen arbeiten können. Damit würden wir anfangen, uns unabhängig zu machen, ohne uns von der Entwicklung und den Möglichkeiten großer Modelle abzukoppeln.

Meine praktische Lösung: Kombination aus Ansatz 1 und 2

In meiner täglichen Arbeit verbinde ich die ersten beiden Strategien: Ich verzichte auf die Eingabe sensibler Daten und nutze Hosting-Lösungen, die meinen Datenschutzanforderungen entsprechen. Dabei teile ich keine besonders sensiblen Daten.

P.S. Eine Vorlage für entsprechende KI-Leitlinien für Vereine habe ich auch geschrieben:
www.juliajunge.de/leitlinien

Mehr verstehen

Möchtest du dich vertiefen und lernen, wie du KI sicher und effektiv in deinem Team einsetzen kannst? Dann komm doch gern zu einem meiner Kurse: