Der Begriff „Datenqualität“ geistert durch alle Abteilungen und Bereiche jedes ambitionierten Unternehmens. Je deutlicher aber wird, dass es sich hierbei nicht nur um das nächste große Buzzword handelt, desto mehr stellt sich die Frage: Was ist Datenqualität eigentlich? In diesem Artikel geben wir eine Datenqualität Definition und einen Überblick über die grundsätzlichen Fragen, die sich rund um Datenqualität stellen. Nach dem Lesen werden Sie nicht nur in der Lage sein, den Begriff einzuordnen, sondern auch darüber zu spechen, welche Implikationen gute oder schlechte Datenqualität mit sich bringen.
Inhalte
Was ist Datenqualität? Eine verständliche Datenqualität Definition
Nun also direkt zur eigentlichen Fragestellung: Was ist Datenqualität? Natürlich gibt es nicht „die eine Datenqualität Definition“, die für alle Lebenslagen gilt. Eine alltagstaugliche Erklärung unterscheidet sich zudem von standardisierten Auslegungen des Begriffs. Wir möchten daher eine „laiengerechte“ Definition darstellen und dabei die 5 wichtigsten Dimensionen von Datenqualität erläutern. Im Anschluss gehen wir auf das hochstandardisierte ISO 8000 Framework ein.
5 Dimensionen der Datenqualität
Datenqualität beschreibt, wie gut Daten für einen konkreten Einsatzzweck geeignet sind. Dieser Satz an sich ist noch nicht besonders aussagekräftig, weswegen wir ihn an bestimmten Kriterien näher erläutern möchten. Datenqualität misst sich vor allem an fünf Eigenschaften.
1. Korrektheit
Wie fehlerfrei sind die vorhandenen Daten?
- Stimmen die Telefonnummern mit dem korrekten Format überein?
- Sind Namen falsch geschrieben, z. B. „Meier“ statt „Meyer“?
- Gibt es fehlerhafte E-Mail-Adressen?
- Werden Postleitzahlen und Städte korrekt zugeordnet?
Korrektheit bedeutet: Die Daten entsprechen der Realität und enthalten keine sachlichen oder formalen Fehler.
2. Vollständigkeit
Wie vollständig sind die Kundendaten erfasst?
- Sind alle relevanten Felder ausgefüllt (z. B. Name, Adresse, Telefonnummer)?
- Gibt es unvollständige Datensätze, z. B. Kunden ohne Hausnummer oder Geburtsdatum?
- Werden ganze Kategorien nicht erfasst, z. B. keine Angabe zur bevorzugten Kontaktmethode?
Vollständigkeit fragt: Ist alles da, was für die vorgesehene Nutzung benötigt wird?
3. Aktualität
Wie aktuell sind die Daten – und werden sie regelmäßig gepflegt?
- Wann wurde der jeweilige Datensatz zuletzt aktualisiert?
- Wurden z. B. Umzüge, Namensänderungen oder neue Telefonnummern nachgetragen?
- Gibt es Prozesse zur regelmäßigen Bereinigung und Aktualisierung, oder liegen Daten mehrere Monate brach?
- Werden abgemeldete oder inaktive Kunden noch als aktiv geführt?
Aktualität misst, ob die Daten zeitlich relevant und auf dem neuesten Stand sind.
4. Eindeutigkeit
Sind die Daten eindeutig und widerspruchsfrei?
- Gibt es doppelte Einträge für dieselbe Person (z. B. „Peter Müller“ und „P. Mueller“)?
- Werden Kunden mit mehreren Adressen oder Telefonnummern als mehrere Kunden geführt?
- Haben eindeutige Identifikatoren (z. B. Kundennummern) doppelte Vergaben?
- Wie gut funktionieren automatische Dublettenprüfungen im System?
Eindeutigkeit bedeutet: Jeder Kunde ist nur einmal im System – ohne Widersprüche oder Mehrdeutigkeiten.
5. Konsistenz
Passen die Daten über verschiedene Systeme hinweg zusammen?
- Stimmen Kundeninformationen im CRM, im ERP und im E-Mail-Tool überein?
- Wird dieselbe Adresse überall gleich geschrieben (z. B. „Musterstraße 5“ vs. „Musterstr. 5“)?
- Gibt es Widersprüche zwischen Rechnungsdaten und Versandadressen?
- Werden Änderungen im einen System automatisch oder manuell in andere Systeme übertragen?
Konsistenz stellt sicher, dass die Daten in allen Quellen gleich, logisch und harmonisch sind.
Der Mailingliste beitreten
Alle 2 Wochen die wichtigsten Infos aus der Welt der Daten und der künstlichen Intelligenz – gratis und jederzeit kündbar!
ISO 8000: Datenqualität als „Fitness for Purpose“
ISO 8000 ist der international definierte Standard von Datenqualität, vor allem im Hinblick auf den Datenaustausch zwischen Geschäftspartnern. Am häufigsten kommt dieser Standard im Kontext von digitalen Lieferketten oder auch Gesundheitsdaten vor und zielt auf eine Erhöhung der Datenqualität und Datenportabilität ab. So sollen Beschaffungskosten gesenkt, die Bestandsoptimierung geförderd und im Supply Chain Management für Kosteneinsparungen gesorgt werden.
Was liefert ISO 8000?
ISO 8000 definiert dabei ein sehr umfangreiches Sortiment an Standards für verschiedene Zwecke, beispielsweise:
- Generelle Prinzipien, Definitionen, Messverfahren
- Data Governance
- Data Quality Management (mit Prozessen und Rollen)
- Regeln und Profile für Data Quality Assessment
Bislang sind an die 20 Guidelines von ISO 8000 erschienen.
Wo ist ISO 8000 relevant?
ISO 8000 ist zwar kein Pflichtstandard, aber gerade dort besonders relevant, wo Daten über Organisationsgrenzen hinweg strukturiert, interoperabel und eindeutig sein müssen. Unternehmen mit komplexen Prozessen, vielen Systemen oder regulatorischem Druck profitieren am meisten von einer ISO-konformen Datenqualitätsstrategie. Dazu gehören beispielsweise die folgenden Bereiche:
- Industrie und Fertigung (Ersatzteil- und Produktmanagement)
- Internationale Lieferketten
- Öffentliche Verwaltung und Behörden
- Gesundheitswesen und Pharma
- Große IT-Projekte und Datenmigration
Dataspaces und ISO 8000
Auch wenn ISO 8000 wie erwähnt keinen verpflichtenden Standard darstellt, gewinnt er mit Blick auf den internationalen Datenhandel, wie beispielsweise bei Data Spaces, an strategischer Bedeutung. Wo Daten grenzübergreifend und automatisiert verarbeitet und gehandelt werden, sind einheitliche Qualitätsanforderungen entscheidend.
ISO 8000 bietet hier ein praxisnahes Framework, das sich – je nach Branche und Use Case – zu einem De-Facto-Standard entwickeln kann. Ob dies flächendeckend geschieht, hängt davon ab, wie stark sich ISO 8000 in künftigen Architektur- und Governance-Modellen wie GAIA-X oder Catena-X durchsetzt.
Mehr dazu in unserem Artikel Data Mesh vs. Data Space – Was ist der Unterschied?
Weitere fachliche Standards zur Datenqualität und Daten-Governance:
- BCBS 239 – Regulatorischer Standard für Datenaggregations- und Reporting-Fähigkeiten in der Finanzbranche
- DAMA-DMBOK – Data Management Body of Knowledge: etabliertes Referenzwerk für ganzheitliches Datenmanagement
- DCAT (Data Catalog Vocabulary) – W3C-Standard zur Beschreibung von Datenkatalogen, häufig in offenen Datenräumen (Open Data, Data Spaces) verwendet
- IDS Information Model – Modell der International Data Spaces Association (IDSA) für vertrauenswürdigen, souveränen Datenaustausch
- DIN SPEC 27070 – Standard für sichere, auditierbare Datenübertragung in föderierten Dateninfrastrukturen
- ISO/IEC 11179 – Standard zur Definition und Pflege von Metadaten in Datenregistern
Welche Schäden schlechte Datenqualität anrichtet
Nach all den Definitionen stellt sich nun die Frage, warum man sich mit diesen Standards und Begriffen wirklich auseinander setzen sollte. Hier lohnt ein Blick auf die Schäden, die Ihr Unternehmen erleiden kann, wenn mangelhafte Datenqualität eine vorliegt.
Verzerrte Reportings und fehlerhafte Dashboards
Fehlende Werte, Zahlendreher oder veraltete Einträge führen zu falschen KPIs. Die Folge: Reports stimmen nicht, Entscheidungen werden infrage gestellt oder falsch getroffen. Oft müssen Zahlen zeitintensiv manuell angepasst oder sogar komplexe Datenpipelines aufgebaut werden, um diese Mankos auszugleichen. Dies kostet Zeit und führt zu Vertrauensverlust in BI-Lösungen.
Negative Effekte auf KI und Machine Learning
Ein häufiger Trugschluss ist, dass für Machine Learning große Datenmengen vorhanden sein müssen. Dabei ist häufig schon bei sehr geringen Datenmengen eine einfache Datenlösung mit KI erreichbar – solange diese Daten in guter Qualität vorliegen.
Fehlerhafte oder verzerrte Daten dagegen führen zu voreingenommenen Modellen (Bias), schlechter Modellqualität oder sogar komplett falschen Prognosen. Auch hier kann Vieles durch ein gut durchgeführtes Preprocessing gerettet werden, aber unvollständige und schlecht gepflegte Daten führen im Rahmen von Machine Learning fast immer zu Problemen.
Vertrauensverlust in Data Analytics
Wenn sich Ergebnisse bei jeder Analyse unterscheiden oder nicht nachvollziehbare Werte zeigen, sinkt das Vertrauen in Datenprodukte. Teams greifen wieder zu Excel-Schattenlösungen und kochen in den Abteilungen ihre eigenen Süppchen. Der Datenauswertung fehlt so jegliche einheitliche Basis.
Wirtschaftliche und strategische Folgen
Die oben genannten Folgen stellen vor allem zeitliche und qualitative Probleme dar. Schlechte Datenqualität kann aber in bestimmten Fällen auch wirklich konkret teuer werden:
- Direkte Kosten durch manuelle Nachbearbeitung oder Fehlentscheidungen
- Indirekte Verluste durch verpasste Chancen, falsche Marktprognosen
- Reputationsschäden, etwa bei fehlerhaften Kundenanschreiben
- Compliance-Risiken durch falsche personenbezogene Daten (DSGVO!)
Ursachen für schlechte Datenqualität – ein kurzer Überblick
Wirklich intensiv auf die Ursachen schlechter Datenqualität einzugehen, würde hier den Rahmen sprengen, da wir ja nur kurz über den Tellerrand Datenqualität Definition hinausblicken möchten. Dennoch sollen hier, um einen ersten Einblick zu geben, die wichtigsten Fehler Ursachen kurz vorgestellt werden.
- Manuelle Eingabefehler: Dies kommt überall da vor, wo Daten manuell erfasst oder sogar im Nachgang angepasst werden können. Typischerweise handelt es sich hier um Tippfehler oder falsche Datenformate. Man mag gar nicht glauben, welch einen Unterschied in einer Analyse ein falsch gesetzte Komma machen kann.
- Fehlende Standards und Validierungen: Gerade der zuletzt genannte Punkt kann durch fehlende Datenstandards gehäuft auftauchen, vor allem dann, wenn es keine automatischen Prüfmechanismen gibt.
- Brüche zwischen Systemen: Je länger in größeren Firmen gearbeitet wird, desto mehr Systeme und Tools werden verwendet. Oft werden gerade alte Systeme zudem nicht mehr ausreichend gepflegt oder entsprechend nicht mehr den modernen Standards. Die Zusammenführung stellt dann eine besondere Herausforderung für Data Engineers dar. Ohne vernünftige ETL-Prozesse kommt es in so einem Fall sehr schnell zu Datenverlusten, fehlerhaften Zusammenführungen oder erneut zu Problemen mit Datenformaten.
Dies ist nur ein kleiner Abriss. Wir werden zeitnah einen ausführlichen Artikel zu diesem Thema veröffentlichen. Tragen Sie sich für den zweiwöchigen Newsletter ein, um diese Informationen auf keinen Fall zu verpassen.
Wie Enari Sie bei Datenqualität unterstützt
In unseren Projekten begleiten wir Kunden in verschiedenen Stadien ihrer „Daten-Journey“. Als guter Einstiegspunkt hat sich hier zumeist unser Daten-Assessment erwiesen. In diesem wird in einem Workshop die Datenlage betrachtet und von unseren Data Scientisten eine klare Abschätzung geliefert, welche Datenqualität vorliegt. Wir erstellen klare und umsetzbare Empfehlungen für die Verbesserung und eine Einschätzung, wie nutzbar die Daten für bestimmte Data und KI Usecases sind.
Darüber hinaus implementieren wir konkrete Datenlösungen vom Prototypen bis hin zum voll automatisierten Roll-Out von Machine Learning Modellen und bieten gezielte Schulungen an. Treten Sie gerne mit uns in Kontakt und vereinbaren ein kostenloses Kennenlernen.
Fazit: Warum jetzt handeln?
Datenqualität ist keine theoretische Disziplin – sie entscheidet darüber, ob Ihr Unternehmen mit Daten wirklich erfolgreich sein kann. Fehlende oder falsche Daten führen zu Fehlentscheidungen, hohen Folgekosten und verlorener Zeit.
Wer dagegen früh in verlässliche Daten investiert, schafft die Grundlage für digitale Exzellenz – im Reporting, in der Automatisierung und in der künstlichen Intelligenz.
Sie möchten wissen, wie es um Ihre Datenqualität steht?
Sprechen Sie mit uns – wir begleiten Sie auf dem Weg zu hochwertigen, vertrauenswürdigen Daten.