22. Juni 2026 predrag Allgemein

Nicht die KI versagt — es fehlt die Nachweisbarkeit

Die spektakulären KI-Pannen stehen nicht nur im Silicon Valley. Im DACH-Raum und in Europa gibt es eigene — und hier ist der Maßstab nicht der verlorene Börsenwert, sondern Recht: DSGVO und EU AI Act. Fünf dokumentierte Fälle und das Muster dahinter.

Es gibt ein wiederkehrendes Muster in den teuersten KI-Projekten. Es ist nicht „die KI ist noch nicht so weit“, und es ist auch kein böser Wille. Das Muster ist subtiler — und folgenreicher: Systeme gehen in Betrieb, die niemand prüfen, nachvollziehen oder im Ernstfall verteidigen kann. Hype kommt vor Evidenz. Aktivität kommt vor Belegbarkeit.

Im deutschsprachigen Raum kommt eine Besonderheit hinzu: Hier entscheidet am Ende oft nicht der Markt, sondern ein Gericht oder eine Aufsichtsbehörde. Genau das macht die folgenden Fälle für jedes Unternehmen relevant, das KI einsetzt.

Wenn ein System Menschen automatisch sortiert

Österreich — der AMS-Algorithmus. Ab Ende 2019 stufte das „Arbeitsmarktchancen-Assistenz-System“ (AMAS) Arbeitssuchende nach ihren Vermittlungschancen ein. Das Problem steckte im Modell: Frauen bekamen Punktabzug, Mütter noch einmal mehr; Menschen mit Behinderung und mit Migrationshintergrund wurden strukturell schlechter bewertet — und damit potenziell von Förderungen ausgeschlossen. Im August 2020 stoppte die österreichische Datenschutzbehörde das System: keine ausreichende Rechtsgrundlage, keine echte Einspruchsmöglichkeit für Betroffene. Es folgten Jahre juristischen Tauziehens. Ein KI-System, das Menschen kategorisiert, ohne dass jemand die Einstufung erklären oder anfechten kann — das hält rechtlich nicht.

Deutschland — die Dialekterkennung des BAMF. Das Bundesamt für Migration und Flüchtlinge setzt seit Jahren eine Software ein, die aus der Aussprache von Asylsuchenden auf deren Herkunft schließen soll. Fachleute kritisieren sie seit Langem: eine Fehlerquote um die 20 Prozent, ein intransparenter Algorithmus, keine ernsthafte wissenschaftliche Begleitung — und das bei mittlerweile Zehntausenden Betroffenen, für die solche „Hinweise“ über den Ausgang ihres Verfahrens mitentscheiden. Sprache hält sich nicht an Ländergrenzen; ein Modell, das so tut, produziert Fehler mit gravierenden Folgen.

Zur Einordnung, ein Stück weiter westlich: In den Niederlanden stufte ein Algorithmus der Steuerbehörde Familien mit doppelter Staatsbürgerschaft und niedrigem Einkommen pauschal als Betrugsrisiko ein. Zehntausende Familien mussten über Jahre zu Unrecht Kindergeld zurückzahlen, viele verloren Job oder Wohnung. Die Affäre brachte 2021 die gesamte Regierung Rutte zu Fall. Kein technischer Defekt — ein Modell, das niemand auf Diskriminierung geprüft und niemand verantwortet hatte.

Wenn Unternehmen sich auf undurchschaubare Scores verlassen

Das ist nicht nur ein Thema des Staates. Das SCHUFA-Urteil des EuGH (7. Dezember 2023, Rechtssache C-634/21) hat für die Privatwirtschaft einen Pflock eingeschlagen: Wenn ein automatisch erstellter Score maßgeblich darüber entscheidet, ob jemand einen Vertrag, einen Kredit oder eine Wohnung bekommt, dann gilt schon die Erstellung dieses Scores als „automatisierte Entscheidung“ nach Art. 22 DSGVO — und ist ohne besondere Rechtsgrundlage grundsätzlich unzulässig. Die Tragweite: Diese Auslegung trifft potenziell jede KI, die Bewertungen erzeugt, auf deren Basis Dritte entscheiden — von der Bonität bis zur Vorsortierung von Bewerbungen. Wer einen Score nicht erklären kann, hat ein rechtliches Problem, kein technisches.

Wie wenig solche Bewertungen oft taugen, zeigte ein Test des Bayerischen Rundfunks an der KI-Bewerbungsanalyse des Anbieters Retorio. Die Software leitet aus Bewerbungsvideos Persönlichkeitsprofile (Big Five) ab. Die Datenjournalisten ließen dieselbe Schauspielerin denselben Text vortragen — einmal mit Brille, einmal mit Kopftuch, einmal mit Bücherregal im Hintergrund. Das Ergebnis: Die KI änderte ihre Persönlichkeitsbewertung allein aufgrund dieser visuellen Merkmale, nicht aufgrund des tatsächlichen Verhaltens. Eine „Eignungsdiagnostik“, die auf eine Brille reagiert, ist keine Diagnostik. Sie ist ein Risiko — fachlich und rechtlich.

In Europa ist Nachvollziehbarkeit kein Nice-to-have

Genau hier liegt der Unterschied zum US-Markt: In der EU ist Erklärbarkeit gesetzlich verankert. Art. 22 DSGVO gibt Betroffenen ein Recht auf menschliches Eingreifen und auf eine nachvollziehbare Begründung. Der EU AI Act verlangt für Hochrisiko-Systeme Risikomanagement, Datenqualität, Protokollierung und menschliche Aufsicht. Und selbst die Schweiz, lange ohne eigenes Regelwerk, hat mit dem Bundesratsentscheid vom 12. Februar 2025 den Weg zur KI-Regulierung eingeschlagen — auch, weil das geltende Antidiskriminierungsrecht algorithmische Diskriminierung durch private Unternehmen kaum erfasst.

Für Unternehmen heißt das: Eine KI-Entscheidung, die man nicht erklären und belegen kann, ist im DACH-Raum nicht nur ein Reputationsrisiko — sie ist potenziell schlicht unzulässig.

Das gemeinsame Muster

Legen Sie diese Fälle nebeneinander, und Sie sehen nicht „schlechte KI“. Sie sehen denselben blinden Fleck:

Keine Nachvollziehbarkeit. Niemand konnte erklären, warum das System so entschied — und damit auch nicht, wann es falsch lag.
Keine Governance. Keine benannte Verantwortung, keine Prüfzyklen, kein definiertes Verhalten im Zweifelsfall.
Kein Nachweis. Im entscheidenden Moment — vor der Behörde, vor Gericht, vor dem Betroffenen — fehlte das Artefakt, das belegt: Diese Entscheidung war korrekt und verantwortet.
Hype vor Evidenz. Eingeführt wurde, weil „man jetzt KI macht“ — nicht, weil ein Problem sauber gelöst war.

Anders gesagt: Der Schaden entstand nicht dort, wo KI eingesetzt wurde, sondern dort, wo sie als Black Box eingesetzt wurde — ohne Determinismus, ohne sicheren Rückfall, ohne Audit-Spur.

Wie es anders geht

Bei ZERYON Systems bauen wir KI-Schichten über bestehende Systeme nach dem umgekehrten Prinzip: deterministisch, fail-closed, auditierbar.

Deterministisch heißt: Gleiche Eingabe führt zur gleichen, nachprüfbaren Entscheidung. Keine Ergebnisse, die niemand reproduzieren kann.
Fail-closed heißt: Lässt sich eine Entscheidung nicht sicher treffen, greift der sichere Standard — nicht ein Rateergebnis, das später teuer wird.
Auditierbar heißt: Vom Aufruf bis zum Ergebnis ist jede Entscheidung nachvollziehbar und belegbar — genau das Artefakt, das in den Fällen oben gefehlt hat. Und genau das, was Art. 22 DSGVO und der EU AI Act verlangen.

Das ist keine Bremse für Innovation. Es ist die Bedingung dafür, dass KI im Unternehmen kein Eintrag in der nächsten Liste teurer Pannen wird — und im DACH-Raum zunehmend die Bedingung dafür, dass sie überhaupt zulässig ist.

Evidenz vor Behauptung. Das ist nicht nur eine Haltung. Es ist der Unterschied zwischen einer Entscheidung, die Sie vor einer Aufsichtsbehörde verteidigen können, und einer, die Sie es nicht können.

Lassen Sie uns über Ihre Umgebung sprechen. In einem kurzen Erstgespräch ordnen wir ein, wo bei Ihnen KI sinnvoll, sicher und nachweisbar einsetzbar ist — und wo nicht. Erstgespräch vereinbaren » · Oder testen Sie den Consulting-Navigator, der Ihren konkreten Bedarf in wenigen Fragen einordnet.

Quellen: netzpolitik.org & ORF (AMS-Algorithmus / Datenschutzbehörde, Österreich); netzpolitik.org & AlgorithmWatch (BAMF-Dialekterkennung); Amnesty International & Algemene Rekenkamer (niederländische Kindergeld-Affäre); EuGH C-634/21 vom 7.12.2023 sowie CMS & vzbv (SCHUFA-Scoring); Bayerischer Rundfunk / netzpolitik.org (Retorio); AlgorithmWatch CH & Bundesrat (Schweiz). Stand der Recherche: Juni 2026. Dieser Beitrag ist kein Rechtsrat.

Nicht die KI versagt — es fehlt die Nachweisbarkeit

Nicht die KI versagt — es fehlt die Nachweisbarkeit

Wenn ein System Menschen automatisch sortiert

Wenn Unternehmen sich auf undurchschaubare Scores verlassen

In Europa ist Nachvollziehbarkeit kein Nice-to-have

Das gemeinsame Muster

Wie es anders geht

Kommentar schreiben Antwort abbrechen