Datenqualität im KI- und LLM-Kontext
Qualitativ hochwertige Daten sind ein strategisches Asset
Datenqualität als strategischer Faktor in einer KI-getriebenen Wirtschaft
Unternehmen stehen heute an einem Wendepunkt: Künstliche Intelligenz, Machine Learning und zunehmend auch Large Language Models (LLMs) verändern Wertschöpfung, Entscheidungen und Kundeninteraktion. Während die technologische Debatte häufig um Modellarchitekturen, Rechenleistungen oder neue Anwendungsfälle kreist, bleibt ein Aspekt häufig unterbelichtet – die Qualität der Daten, auf denen diese Systeme basieren.
Dabei ist gerade sie der entscheidende Faktor: Ohne hochwertige Daten sind KI-Systeme nicht robust, nicht vertrauenswürdig und nicht skalierbar. Das gilt sowohl in industriellen Szenarien wie Predictive Maintenance als auch in vertrieblichen Anwendungen wie Lead-Scoring, Kundenanalyse oder automatisierten Entscheidungsprozessen.
Der bekannte Satz „Garbage in, garbage out“ hat in der KI eine neue Dimension erhalten – denn viele Modelle sind nichtlinear, sensibel gegenüber Störungen und arbeiten mit enormen Variationen möglicher Eingaben. Schon kleine Datenabweichungen können zu vollkommen unterschiedlichen Ergebnissen führen. Für Unternehmen wird Datenqualität deshalb zu einem
strategischen Asset, vergleichbar mit der Qualität von Rohstoffen in der Produktion.
1. Warum KI-basierte Software grundlegend anders ist
Klassische Software folgt einer klaren Logik: Regeln werden programmatisch definiert, der Entwickler entscheidet, welche Bedingungen zu welchem Ergebnis führen. KI-basierte Systeme funktionieren hingegen statistisch-probabilistisch, nicht deterministisch. Entscheidungen entstehen aus trainierten Modellen, die Muster aus Daten verallgemeinern.
Das führt zu mehreren Besonderheiten:
1.1. KI-Modelle sind nichtlinear – kleine Störungen, große Wirkungen
Ein einzelner fehlender Wert, ein falsch gelabeltes Beispiel oder ein inkonsistentes Datenfeld kann in neuronalen Netzen zu massiven Abweichungen führen. Selbst bei identischen Aufgaben reagieren Modelle unter leicht veränderten Bedingungen oft unterschiedlich.
1.2. Modelle sind schwer erklärbar
Während regelbasierte Systeme einer klaren Logik folgen, ist die innere Funktionsweise vieler ML-Modelle komplex oder nicht vollständig nachvollziehbar. Damit wird das Management von Datenqualität umso wichtiger, da Fehler schwerer zu diagnostizieren sind.
1.3. Testen ist schwieriger
Eine nahezu unendliche Zahl möglicher Eingaben (z. B. alle möglichen Bilder, Texte oder Sensorwerte) macht vollständiges Testen unmöglich. Die Testqualität hängt damit direkt von der Qualität und Repräsentativität der Daten ab.
1.4. Daten sind nie ein vollständiges Abbild der Realität
Daten werden immer aus einem bestimmten Grund erhoben. Sie sind ein Ausschnitt, keine objektive Wahrheit. Jede Dimension – Vollständigkeit, Auswahl, Semantik, Aktualität – entscheidet darüber, wie realistisch ein Modell „die Welt“ wahrnimmt.
Gerade diese vier Punkte zeigen: In KI-Systemen verlagert sich die Qualitätssicherung von der Programmierung hin zum Datenmanagement
2. Datenqualität im KI-Kontext: Ein mehrdimensionaler Begriff
Im KI-Umfeld umfasst Datenqualität nicht nur klassische Dimensionskriterien wie Vollständigkeit und Konsistenz. Hinzu kommen drei besondere Aspekte, die für KI-Systeme charakteristisch sind:
2.1. Formale & syntaktische Qualität
Diese Dimension umfasst u. a.:
- Formatfehler
- fehlende Werte
- Tippfehler
- widersprüchliche Datentypen
- divergierende Bezeichner oder Taxonomien
Solche Fehler sind nicht nur ärgerlich, sondern können Modelle tatsächlich „vergiften“. Schon ein kleiner Bruch in der Datenstruktur kann bedeuten, dass Modelle Werte falsch interpretieren.
2.2. Logische Kompatibilität von Datensätzen
Dies ist eine KI-spezifische Dimension, die selten in klassischen Datenqualitätsleitfäden auftaucht.
Ein Beispiel:
Ein KI-System wird mit drei Datensätzen (A, B, C) trainiert. Die Informationen stehen in interpretierbaren Beziehungen zueinander, sodass das Modell aus direkten Daten und den gelernten Verknüpfungen zwischen ihnen Regeln ableiten kann.
Kommt nun ein neuer Datensatz D hinzu, verändern sich:
- das wahrgenommene Muster im Datenraum
- die internen logischen Beziehungen
- die vom Modell abgeleiteten Regeln
Ein zuvor stabiles Modell kann dann zu vollkommen neuen Entscheidungen kommen. Es „sieht“ eine neue Realität – und verhält sich entsprechend anders.
Diese Dimension ist in traditionellen Data-Governance-Modellen kaum beschrieben, aber für KI essenziell.
2.3. Repräsentativität gegenüber der realen Welt
Das ist eine der kritischsten und oft unterschätzten Dimensionen.
Probleme entstehen insbesondere durch:
- veraltete Daten
- verzerrte oder stereotype Daten
- ungenaue Messverfahren
- fehlende Fachspezifik
- Datenlücken in seltenen Szenarien
- nicht abgebildete Umwelteinflüsse
Modelle generalisieren dann falsch – und erzeugen Verzerrungen oder Halluzinationen.
KI-Halluzinationen – Definition
Halluzinationen entstehen, wenn KI-Modelle Inhalte generieren, die realistisch wirken, aber nicht mit den zugrunde liegenden Eingaben übereinstimmen. Man spricht von:
- fehlender faithfulness (Übereinstimmung mit Quellen)
- mangelnder factualness (inhaltlicher Korrektheit)
Repräsentativität ist daher nicht nur ein ethisches Issue, sondern ein wirtschaftliches Risiko.
3. Warum Datenqualität ein betriebswirtschaftliches Thema ist
Wenn KI-Modelle ungenaue Entscheidungen treffen, ist das kein technisches Problem – es ist ein Geschäftsrisiko.
Es wirkt sich aus auf:
- Umsatzprognosen
- Automatisierungsqualität
- Kundenkommunikation
- Markenreputation
- operative Effizienz
- Risikomanagement
- regulatorische Compliance
KI-Systeme sind wirtschaftlich nur so wertvoll wie die Qualität der Daten, auf denen sie beruhen.
Ein Beispiel, das dies eindrucksvoll zeigt, ist der Vorfall bei Unity Technologies im Jahr 2022.
Exkurs: Der Unity-Fall – wenn Datenqualität zum Börsenrisiko wird
Unity Technologies, ein weltweit führender Anbieter von 3D-Engines und Werbetechnologien, musste 2022 Investoren über erhebliche Datenqualitätsprobleme informieren.
Konkret ging es um Fehler in einem maschinellen Lernmodell („Audience Pinpointer“), das Zielgruppen für Werbung prognostiziert. Die Folgen:
- 110 Mio. USD Umsatzverlust (laut Forbes und The Motley Fool)
- massiver Einbruch des Aktienkurses um 35–40 %
- Rückgang der Marktkapitalisierung um mehrere Milliarden USD
- Vertrauensverlust bei Werbekunden und Investoren
CEO John Riccitello kündigte daraufhin an, Datenqualitätsprozesse und Monitoring grundlegend zu überarbeiten.
Der Fall zeigt: Datenqualität ist kein technisches Detail – sie entscheidet über wirtschaftliche Stabilität.
4. Regulatorischer Rahmen: Was die KI-Verordnung fordert
Die europäische KI-Verordnung (AI Act) definiert erstmals verbindliche Qualitätsanforderungen an Trainingsdaten:
- Relevanz
- Fehlerfreiheit
- Vollständigkeit
- Dokumentation
- Nachvollziehbarkeit
- Governance-Strukturen
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat mit QUAIDAL (Quality Criteria for AI Trainingsdata in AI Lifecycle) einen Leitfaden entwickelt, der diese Anforderungen operationalisiert.
QUAIDAL bietet:
- modulare Maßnahmen
- Metriken
- auditierbare Kriterien
- Unterstützung für Hochrisiko-KI-Systeme
Für Unternehmen bedeutet das:
Datenqualität wird prüfbar, messbar und regulatorisch gefordert.
5. Datenqualität sicherstellen: Strategien für die Praxis
Datenqualität kann an drei Stellen gesichert werden:
- Vor dem Training (Entwicklungsphase)
- Während des Trainings (Evaluationsphase)
- Im Produktivbetrieb (Laufzeitphase)
5.1. Klassische Datenqualitätsmaßnahmen
Diese sind weiterhin unverzichtbar:
- Deduplizierung
- Validierung
- Vollständigkeitschecks
- Anomalieerkennung
- Konsistenzprüfungen
- Standardisierung und Harmonisierung
5.2. KI als Verbündeter bei der Datenaufbereitung
KI kann selbst eingesetzt werden für:
- Erkennung von Ausreißern
- automatische Korrektur einfacher Fehler
- semantische Normalisierung
- Erkennung von Inkonsistenzen zwischen Datenfeldern
- automatisiertes Labeling und Re-Labeling
5.3. Techniken für die Betriebsphase
Um Fehleranfälligkeit zu reduzieren, eignen sich:
- Chain-of-Thought-Prompting
- Retrieval Augmented Generation (RAG)
- Wissensdatenbanken & semantische Suche
- Kontinuierliche Evaluierung
- Monitoring von Modell-Drift und Daten-Drift
RAG-Systeme sind besonders effektiv:
Sie trennen Sprachverarbeitung (LLM) und Faktenabruf – und machen KI damit genauer, stabiler und weniger anfällig für Halluzinationen.
6. Data Governance: Der entscheidende Erfolgsfaktor
Unabhängig von Algorithmen und Systemarchitekturen ist Data Governance die Grundlage nachhaltiger KI-Erfolge.
Wesentliche Elemente sind:
- klare Rollen (Data Owner, Data Stewards)
- definierte Standards
- Semantik-Management
- Metadatenstrategien
- Verantwortlichkeiten
- Transparenz über Herkunft und Qualität von Daten
- kontinuierliche Überwachung
Unternehmen, die KI erfolgreich einsetzen, arbeiten nicht primär mit „mehr Daten“, sondern mit
besseren Daten.
Fazit: Datenqualität ist ein strategischer Wettbewerbsvorteil
Datenqualität ist nicht nur ein technisches Problem – sie ist ein wirtschaftlicher Erfolgsfaktor, der über die Leistungsfähigkeit von KI entscheidet. KI-Systeme sind hochsensibel gegenüber Fehlern und Abweichungen. Logische Inkompatibilität, mangelnde Repräsentativität oder formale Fehler in Datensätzen können zu Verzerrungen, Fehlentscheidungen, Halluzinationen oder sogar wirtschaftlichen Schäden führen.
Der erfolgreiche Einsatz von KI beginnt daher mit:
- einer sauberen Datenbasis
- strukturierten Governance-Prozessen
- klaren Qualitätsstandards
- kontinuierlichem Monitoring
- und dem Bewusstsein, dass Daten kein Nebenprodukt, sondern ein hochwertiger Produktionsfaktor sind.
KI kann nur so intelligent sein wie die Daten, die ihr zur Verfügung stehen. Unternehmen, die das früh verstehen, haben einen klaren ökonomischen Vorteil.
Praxis-Tipps zur Verbesserung der Datenqualität
- Umfang & Vielfalt: Prüfen Sie, ob Datenmenge und -diversität ausreichend sind, um robuste Modelle aufzubauen.
- Semantik: Implementieren Sie einheitliche Begriffe, Definitionen und Taxonomien im gesamten Unternehmen.
- Fairness & Ethik: Prüfen Sie systematisch auf Verzerrungen und Stereotypen.
- Governance: Definieren Sie Verantwortlichkeiten und Prozesse für Datenqualität.
- Validierung & Monitoring: Etablieren Sie kontinuierliche Qualitätsmessungen.
