066 Wie wichtig ist hohe Datenqualität?

Wie wichtig ist hohe Datenqualität?

Marie von Ebner-Eschenbach war zwar der Ansicht, dass man alles glauben muss, wenn man nichts weiß aber das kann auch nach hinten losgehen: Stell dir vor, ein Mitarbeiter der Qualitätskontrolle liebt die Dokumentation. Akribisch schreibt er jedes Maß der Bauteile die er vermisst, bis auf die dritte Nachkommastelle auf. Leider nimmt er es mit der Prüfmittelüberwachung nicht so ganz genau und so sind seine Daten zwar vollständig aber trotzdem falsch.

Datenqualität als Erfolgsfaktor?

In der Literatur liest man oft von drei Ebenen der Qualität:

  • Strukturqualität
  • Prozessqualität
  • Ergebnisqualität

Wenn du durch das Analysieren (von Zahlen) diese Ebenen positiv beeinflussen willst, dann kommt die Datenqualität ins Spiel. Schon Archimedes hat vor über 2000 Jahren gesagt:

Miss alles, was sich messen lässt, und mach alles messbar, was sich nicht messen lässt.

Und doch sind Daten nicht gleich Daten. Daten schlechter Qualität sind manchmal sogar schädlicher, als wenn du gar keine Daten hättest. Doch wie erhöhst du nun die Qualität der von dir und deinem Unternehmen erhobenen Daten?

Auf der Seite „Logistik Heute“ bin ich auf den Artikel „Sieben Kriterien zur Beurteilung der Datenqualität“ gestoßen (24.04.2019 von Melanie Endres). Die darin beschriebenen Kriterien gelten nicht nur für die Logistik, sondern auch für die Qualität von Daten aller Arten.

Hier ist meine Interpretation für dich mit Bezug zum Qualitätswesen.

7 Anforderungen an hohe Datenqualität

 

Kriterien für Datenqualität

Vollständigkeit

Auf Vollständigkeit von Daten zu achten ist relativ naheliegend. Als Auditor schaust du dir bestimmt auch gerne ausgefüllte Checklisten an – und siehst sofort, wenn Formularfelder nicht vollständig ausgefüllt sind.

Egal ob unvollständige Eintragungen in Patientenakten, nicht eingetragene Messwerte oder fehlende Sensordaten, weil die Sonde nicht richtig angeschlossen ist: Verlässt du dich auf unvollständige Daten, kann das schwerwiegende Folgen haben.

Triffst du auf Basis solcher Daten Annahmen und definierst Maßnahmen, entwickelt sich die Situation in der Folge möglicherweise in die völlig falsche Richtung.

Du musst deshalb immer wieder betonen, wie wichtig vollständig eingetragene Daten sind. Wenn wir über digitale Daten sprechen könnte eine Maßnahme die Definition von Pflichtfeldern sein.

Noch ein Beispiel: Ich schaue mir wöchentlich eine Auswertung der Laborergebnisse an um zu sehen, wie sich die Qualität von Fertigprodukten über mehrere Wochen entwickelt hat. Wenn in der aktuellen Woche der Großteil der Ergebnisse noch nicht vorliegt, weil zum Beispiel mikrobiologische Untersuchungen länger dauern, würde ich zu völlig falschen Schlüssen kommen. Nur wenn ich weiß, wie vollständig die betrachteten Daten sind, kann ich eine Einschätzung treffen.

Aktualität

Selbstredend: Daten sollten möglichst aktuell sein. Doch was heißt aktuell? Die Spannweite reicht von Sekunden (z.B. bei Börsenkursen) bis hin zu Jahren (z.B. bei demografischen Daten). Der Zeitraum muss zur Aussagekraft und Volatilität (Schwankung) eines Parameters oder einer Situation passen.

Es kommt außerdem auf den Produktzyklus an. Wenn eine Woche Zeit vergeht, bis Daten vorliegen – in der Zwischenzeit aber schon tausende von Teilen hergestellt oder hunderte von Patienten behandelt werden die von den Ergebnissen betroffen sein könnten, dann könnte das ungünstig sein.

Eine generelle Frage: Werden Daten zum Monitoring erhoben oder dienen sie dazu, den Prozess zu steuern? Im letzteren Fall gilt: Je schneller desto besser.

Konsistenz

Das Gegenteil ist Inkonsistenz. Und das bedeutet, dass Datensätze sich widersprechen. Ein Beispiel für eine Inkonsistenz: Wenn dein Unternehmen Waren an Kunden schickt, dann müssen die Kundendaten wie z.B. die Adresse auf der Ware, dem Lieferschein und der Rechnung korrekt sein und zusammen passen.

Im Krankenhaus wäre es zum Beispiel fatal, wenn der Name einer Patientin in der Patientenakte nicht mit der Etikettierung der Infusionsflaschen oder der Terminplanung für eine Untersuchung übereinstimmt.

Im besten Fall ist das nur ärgerlich. Wenn Patienten ein falsches Medikament oder eine falsche Behandlung bekommen oder der Kunde sein Produkt nicht bekommt, kann das ernsthafte Konsequenzen haben.

Konformität

Stell dir bitte mal eine Maßnahmenliste in Excel vor. In diese Liste trägst du ein, wer für eine Maßnahme verantwortlich ist, welche Maßnahme umzusetzen ist und bis wann. Zum Ende des Jahres möchtest du für das Management Review eine Auswertung der umgesetzten Maßnahmen nach Namen der Verantwortlichen erstellen.

Der eine Kollege trennt Vor- und Nachnamen mit einem Komma, der andere nicht. Eine Kollegin schreibt immer erst ihren Nach- und dann ihren Vornamen in die Liste. Der Nächste kürzt den Vornamen mit dem Anfangsbuchstaben ab und so weiter.

Ein Graus für jede Analyse! Genau das ist mit Konformität gemeint. Um auswertbar zu sein, müssen die Daten in einem bestimmten Format vorliegen.

In einem solchen Fall musst du erst einmal alle Daten vereinheitlichen. Je nach Datenmenge kostet das sehr viel Zeit! Da helfen die richtigen Vorgaben an die Mitarbeiter. Und wenn Zweifel bestehen, schaut man in den letzten Daten nach, wie die genaue Eintragung dort war.

Genauigkeit

Je genauer, desto besser. Oder?

Nicht ganz.

Du solltest dich bei jedem Datensatz fragen, wie genau die darin enthaltenen Daten sein müssen und ob die Genauigkeit jeweils Sinn ergibt. MS Excel kann beispielsweise mit mehr als 15 Nachkommastellen rechnen. Diese Genauigkeit wird allerdings höchst selten wirklich gebraucht und auch nur selten angezeigt.

Ein weiterer wichtiger Punkt ist die Genauigkeit der Erhebung. Messmittel haben eine bestimmte Genauigkeit. Und Mess- oder Untersuchungsmethoden haben eine bestimmte Messtoleranz.

Liegen Anzeigegenauigkeit eines Messmittels für irgendeinen Parameter zum Beispiel bei 0,2 und die Messunsicherheit bei 0,1 macht es keinen Sinn, von Messwerten Mittelwerte zu bilden und sie auf mehr als zwei Nachkommastellen anzuzeigen.

Werden hingegen Daten wie Versand-Adressen erfasst, ist die Genauigkeit entscheidend. Vergisst man in der Postleitzahl eine Ziffer, kommt die Ware gar nicht, woanders oder viel zu spät an.   

Einzigartigkeit

Damit ist die Vermeidung doppelter Werte gemeint. Solche doppelten Werte (oder auch Dubletten genannt) blähen Systeme unnötig auf und können auch schädlich sein.

Stell dir vor, du hast eine Reklamationsstatistik. In dieser Statistik taucht ein Kunde doppelt auf, weil er unter zwei unterschiedlichen Namen im System angelegt ist (zwei Standorte oder zwei unterschiedliche Schreibweisen).

Mögliche folgen:

  • Die Daten werden doppelt erfasst und es sind zu viele Reklamationen im System
  • Ein Teil der Reklamationen wird dem einen Kunde zugeordnet und ein anderer dem zweiten. Wird das in der Auswertung nicht berücksichtigt, hat man zu wenige Reklamationen
  • Wenn keine Reklamation eingetragen wird, dann steht im System eine 0. Bildest du nun den Mittelwert über alle Lieferanten und du hast einen doppelt, stellst du dich besser dar, als du eigentlich bist.

Richtigkeit

Tippfehler, Zahlendreher oder Verwechslungen führen dazu, dass Daten nicht mehr plausibel und dadurch falsch sind.

Manche Systeme bieten eine Plausibilitätsprüfung. In SAP kann beispielsweise hinterlegt werden, welches Format oder welche Höhe Zahlenwerte haben dürfen. So kann man zum Beispiel angeben, dass Einzelpreise für Produkte einen maximal zweistelligen Wert mit zwei Nachkommastellen haben dürfen.

Gib doch mal bei Microsoft Word bei der Schriftgröße den Wert 2.000 an. Dann wirst du belehrt, dass ein Zahlenwert zwischen 1 und 1.680 eingegeben werden muss. Clever 🙂

Datenqualität als Erfolgsfaktor

Erfolgreiche Menschen und erfolgreiche Firmen messen und vergleichen was das Zeug hält: Produkte, Prozesse, die Konkurrenz, die Leistung von Mitarbeitern und Maschinen. Ohne messen, verändern, wieder messen und wieder verändern können nur selten wirkliche Qualitätssteigerung erzielen.

Deshalb ist es wichtig, dass die Daten, die du erhebst, den oben beschriebenen 7 Kriterien entsprechen.

Eine gute Qualität von Daten hilft dir auch, Trends zu erkennen.

Was sind „Predictive Analytics“?

Ich habe diesen Begriff für mich mit „Vorhersage-Analysen“ übersetzt. Prinzipiell geht es dabei darum, auf Basis vorhandener Daten herauszufinden, wie sich eine Situation in der Zukunft entwickeln wird bzw. sich entwickeln könnte.

Die Predictive Analytics sind ein Bestandteil von „Business Intelligence“. Also der zahlenmäßigen Betrachtung eines gesamten Unternehmens.

Abhängig davon, welche Situation mit welchen Daten analysiert werden sollen, werden die verwendeten Modelle sehr schnell äußerst komplex und die notwendigen Operationen können nur von entsprechenden Algorithmen durchgeführt werden.

Wenn du zum Beispiel vorhersagen möchtest, wie schnell ein technisches Bauteil voraussichtlich kaputtgehen wird, gibt es verschiedene Möglichkeiten. Der einfachste Fall: Du beschränkst dich auf die Historie der notwendigen Reparaturen für dieses Teil oder Teile der gleichen Baureihe.

Wenn dieses Teil im Schnitt jedes Jahr einmal repariert werden muss, könnte man als Maßnahme definieren, alle 6 Monate eine vorbeugende Wartung durchzuführen, die eventuell Stillstände aufgrund von Lieferzeiten verhindert.

Etwas komplizierter wird es, wenn du die Auslastung der Anlagen mit einbeziehst. Je höher die Aus-lastung, desto höher die Be-lastung für das Bauteil. Oder umgekehrt: Eine Anlage die so gut wie nie läuft, geht eventuell schneller kaputt als eine mit moderater Laufzeit. Schließlich werden Maschinen nicht zum rumstehen gebaut!

Knifflig wird es dann, wenn du noch mehr Faktoren mit einbeziehst: Die Maschinenbediener, Reinigungszyklen, unterschiedliche Produkte oder Rohstoffe. Und dann wird es wesentlich spannender: Dann könnte die Analyse ans Tageslicht fördern, dass die vorbeugende Instandhaltung eventuell gar nicht die beste Maßnahme ist. Sondern nur Belastungsspitzen im Prozess reduziert werden müssen damit das Bauteil weniger schnell kaputtgeht.

Buchtipps zum Thema Datenqualität

Weitere Quellen zur Datenqualität

Die Website der Business Information Excellence listet in einem entsprechenden Artikel vom 29. Oktober 2017 insgesamt elf Kriterien auf. Im Artikel kannst du außerdem Beispiele für Kennzahlen (Key Performance Indicators; kurz KPI) finden.

Bei allen Daten solltest du die Realität nicht vergessen

Keine Frage: Datenanalyse kann uns weiterbringen – und sogar Spaß machen! Ich merke das regelmäßig wenn ich Trends unserer Laboranalysen auswerte oder bei der Analyse der monatlichen Blog- und Hörerstatistiken.

Allerdings darf uns dabei immer bewusst sein, dass uns Daten allein die notwendigen Entscheidungen nicht komplett abnehmen. Entscheiden und umsetzen musst du selbst.

Denn ohne Ergebnisqualität ist auch die höchste Datenqualität nichts wert.  

Ein weiterer spannender Artikel zum Thema Daten:

Die Digitalisierung im QM