Riesige Datenmengen strömen auf die Unternehmen ein. Nur wenn es gelingt, mit geeigneten Maßnahmen der Datenbereinigung eine hohe Datenqualität sicherzustellen, kann die Datenbasis für Big Data Anwendungen genutzt werden. Eine integrierte Strategie der Datenbereinigung ist somit eine wesentliche Voraussetzung für die Realisierung von Industrie 4.0. und die digitale Transformation.
Erhöhung der Datenqualität durch gezielte Datenbereinigung
Daten sind für Unternehmen in einer Informationsgesellschaft ein wertvoller Produktionsfaktor. Der Rohstoff „Wissen“ entscheidet darüber, wie sich Firmen im dynamischen Wettbewerb behaupten und ob es gelingt, in einer globalisierten Wirtschaft Wettbewerbsvorteile zu erringen. Es ist jedoch wichtig, die Daten durch geeignete Maßnahmen des Data Cleansing für die folgenden Analyseschritte, mit denen der Mehrwert aus den Daten generiert wird, vorzubereiten. Welche Maßnahmen der Datenbereinigung sinnvoll sind, soll im Folgenden dargestellt werden.
Welche Folgen hat eine mangelnde Datenqualität
Unternehmen nutzen Daten, um sich ein möglichst genaues Bild von der Realität zu machen und aufgrund dieses Bildes unternehmerische Entscheidungen zu treffen. Wie realistisch dieses Bild ist, hängt davon ab, ob die Daten eine hohe Qualität aufweisen. Es ist für die Unternehmen teilweise sehr schwierig, eine ausreichende Datenqualität sicherzustellen. Da die meisten der operativen und strategischen Entscheidungen jedoch nach Anwendung moderner BI-Tools oder Business Analytics Tools getroffen werden, ist es zwingend notwendig, die Datenflut so aufzubereiten, dass sie als Input für die Business Intelligence Anwendungen geeignet ist.
Verfügt ein Unternehmen nicht über eine bereinigte Datenbank, ist es nicht möglich, Reports und Prognosen zu erstellen. Viele Firmen erhoffen sich von der Implementierung eines SAP-Systems die gewünschten Effekte, übersehen dabei aber, dass der Dateninput schnell zum eigentlichen Engpass wird. Doch wie kann man entscheiden, welche Daten eine ausreichende Qualität aufweisen? Zu diesem Zweck sollten Qualitätskriterien herangezogen werden. Daten müssen zuverlässig und aktuell sein und im adäquaten Detaillierungsgrad vorliegen. Sie müssen dafür geeignet sein, das Management bei seinen Entscheidungen zu unterstützen.
Was kann eine Datenbereinigung bewirken?
Letztlich soll die Datenbereinigung alle Daten, die nicht den Qualitätskriterien entsprechen, korrigieren oder löschen. Ziel ist eine einwandfreie Datenbasis, die für die darauf aufbauenden Datenanalysen mit den modernen Informationstechnologien verwendet werden kann. Die Datenbereinigung kann aus unterschiedlichen Gründen notwendig werden. Zum einen muss sie fehlerhafte oder falsch formatierte Daten erkennen. Darüber hinaus muss sie doppelte Datensätze entfernen, unvollständige komplettieren und veraltete aktualisieren.
Der Prozess des Data Cleansing wird ebenfalls mit modernen Analytic Tools durchgeführt. Die Datenbereinigung geht immer der eigentlichen Datenanalyse voraus und erfolgt nach vorher festgelegten Kriterien.
Wenn es gelingt, die Daten erfolgreich zu bereinigen, werden die Folgen mangelnder Datenqualität vermieden:
- Geschäftsprozesse laufen nicht reibungslos ab
- Marketingaktionen werden erschwert
- Cross-Selling-Aktionen sind nicht durchführbar
- Doppelbestellungen oder fehlende Bestände durch Angabe falscher Lagerbestände
- Rechnungen werden doppelt verschickt
- Risikomanagement wird erschwert
- BI-Tools liefern falsche Ergebnisse
- Datenschutz wird erschwert
- Dokumentationspflichten können nicht erfüllt werden
Data Cleansing: Welche Voraussetzungen müssen erfüllt sein?
Wenn die Datenbereinigung konsequent durchgeführt werden soll, ist es wichtig, die Maßnahmen organisatorisch zu verankern und von Seiten der Unternehmensführung die Relevanz des Themas zu unterstreichen. Mit der Implementierung eines Data Governance wird explizit ein Team von Mitarbeitern mit dieser wichtigen Aufgabe betraut. Zu diesem Zweck müssen neben der Übertragung der Aufgabe „Datenbereinigung“ auch die entsprechenden Kompetenzen organisatorisch verankert werden. Das Datenqualitätsteam stellt die Regeln für eine hohe Datenqualität auf und übernimmt anschließend das Data Profiling.
Bei all diesen Aktivitäten ist wichtig, die Anforderungen der User zu berücksichtigen. Eine weitere Voraussetzung ist das Vorhandensein effektiver Analytic Tools, mit denen der gesamte Datenbestand intensiv durchforstet wird. Es bedarf der Qualifikation der Mitarbeiter im Datenqualitätsteam, damit diese die Analytics Tools problemlos anwenden können. Datenbereinigung ist eine Daueraufgabe und die Qualitätskriterien müssen immer wieder hinterfragt und angepasst werden.
Ziele des Data Cleansing
Mit Hilfe geeigneter Datenbereinigungsmaßnahmen werden die Nachteile einer mangelhaften Datenbasis beseitigt und folgende Vorteile erreicht:
- Gewinnung relevanter Informationen aus unterschiedlichsten Datenquellen
- Festlegung der Regeln für die Validierung und Datenkorrektur
- Aggregation der Daten
- Konsolidierung der Daten
- Entfernung von Dubletten
- Identifizierung falscher Adressdaten
- Erweiterung der Daten (beispielsweise um Geodaten)
- Harmonisierung der Datenformatierung
- Problemlose Weiterverarbeitung des Datenbestands mit den BI-Tools
Letztlich kann es nur über den Zwischenschritt der Datenbereinigung gelingen, die mit einer modernen Datenanalyse intendierten Effekte zu erzielen. Eine Investition in innovative Business Intelligence Anwendungen wird wirkungslos verpuffen, wenn die Datenbasis nicht die erforderliche Qualität aufweist.
Data Cleansing: Wie kann die Datenbereinigung im Unternehmen forciert werden?
Wie schon erwähnt, ist es wichtig, dem Thema Datenbereinigung die nötige Aufmerksamkeit zu schenken und möglichst unternehmensweit die Mitarbeiter für diese Aufgabe zu sensibilisieren. Darauf aufbauend können verschiedene Maßnahmen ergriffen werden.
Eindeutige Zielformulierung
Um die Akzeptanz zu sichern, ist es notwendig, Ziele zu formulieren, für die eine verlässliche Datenbasis nachvollziehbar unerlässlich ist. Für die Steigerung der Kundenzufriedenheit ist es beispielsweise extrem wichtig, dass die Kundendaten korrekt und aktuell sind. Ansonsten ist es nicht möglich, die Kundenbedürfnisse zu erkennen und darauf aufbauend eine kundenspezifische Marketingstrategie zu entwickeln.
Außerdem hat eine fehlerhafte Kundendatenbank auch ganz praktische Konsequenzen: Rechnungen werden doppelt verschickt, Werbung erreicht den Kunden mehrmals und seine Bestellung landet vielleicht an einer falschen Adresse. All das führt zur Unzufriedenheit und schlimmstenfalls zum Abwandern des Kunden zur Konkurrenz und zur Äußerung negativer Feed-Backs in den Social Media. Die daraus entstehenden Imageschäden können ein Unternehmen ernsthaft in Gefahr bringen
Video: Datenbereinigung
Analyse der vorhandenen Datenbasis
Mit Analytic Tools werden die gesamten Daten durchleuchtet, sodass der Ist-Zustand erfasst werden kann. In diesem ersten Schritt werden bereits die meisten Probleme und auch die Fehlerhäufigkeiten identifiziert. Das betrifft Redundanzen, unvollständige Datensätze und fehlerhafte Einträge. Es können sogar Widersprüche aufgedeckt werden. Nach der Analyse muss unbedingt eine Dokumentation erfolgen, da ansonsten die Ergebnisse nicht nachvollziehbar und darüber hinaus nicht revisionssicher sind.
Analyse der Datenstrukturen: Data Profiling
Beim Data Profiling geht es um die Datenstruktur und dabei werden die Beziehungen und die Inhalte der Datenquellen betrachtet. Darüber hinaus wird genau analysiert, wer im Unternehmen wie oft auf die Daten zugreift und welche Mitarbeiter wiederum für die Erstellung der Datenbasis verantwortlich sind. Ergebnis ist ein unternehmensweites Datenprofil, anhand dessen erkannt wird, wann Maßnahmen zur Datenbereinigung erforderlich werden.
Konkrete Maßnahmen zur Verbesserung der Datenqualität
Die bei der Analyse identifizierten Fehler in der Datenbasis müssen korrigiert werden, indem beispielsweise Dubletten entfernt und veraltete Datensätze aktualisiert werden. Insgesamt wird der gesamte Datenbestand validiert und standardisiert. Sämtliche Daten sowohl aus strukturierten wie auch aus unstrukturierten Quellen werden auf diese Weise im Hinblick auf die Vollständigkeit sowie die Präzision bewertet und gegebenenfalls korrigiert.
Ziel ist die Bildung eines einheitlichen Stammdatensatzes unabhängig davon, aus welchen Quellen die einzelnen Daten stammen. Mit modernen Verfahren wie dem sogenannten „Fuzzy Matching“ ist es möglich, Datenbestände erfolgreich zusammenzuführen und somit eine verlässliche, vollständige Datenbasis für ein Objekt zu generieren.
Eine hohe Datenqualität beginnt bei der Datenerfassung
Viele Fehler schleichen sich bereits bei der Erfassung der Daten ein und sind später nur sehr schwer zu finden. Es ist somit wichtig, Fehlerquellen bereits an dieser Stelle auszuschalten oder zumindest zu minimieren. Eine Möglichkeit besteht in der einfachen und vor allem selbsterklärenden Gestaltung der Eingabemasken. Sinnvoll sind auch Warnfunktionen, die es in den meisten ERP-Systemen gibt, damit die Datensätze bereits an dieser Stelle einem Plausibilitäts-Check unterzogen werden.
Auch die Anzahl der Dubletten kann aktiv verringert werden, indem strikt auf einheitliche Bezeichnungen für die Artikel geachtet wird und Abkürzungen vermieden werden. Dafür ist es notwendig, die Nutzer in den Prozess einzubeziehen und auch deren Nutzergewohnheiten zu berücksichtigen.
Des Weiteren sollte die Datenerfassung so weit wie möglich automatisiert ablaufen, da auch dies die Fehlerhäufigkeit erheblich reduziert. Transponder und moderne Software erleichtern die Logistik und ermöglichen die Zusammenarbeit der verschiedenen Abteilungen. Werden Bestandsveränderungen automatisch gemeldet, sinkt die Gefahr, dass dies vergessen oder an falsche Stellen gemeldet wird. Den Prozess der Datenerfassung zu automatisieren und zu integrieren, hat den weiteren Vorteil, dass dieser Prozess einmal komplett durchdacht wird und somit wesentlich reibungsloser und schneller abläuft. Außerdem wird verhindert, dass Schritte vergessen oder doppelt ausgeführt werden. Schnelle Prozesse sind das oberste Ziel in einer dynamischen Umwelt und ermöglichen zeitnahe Reaktionen sowie eine höhere Produktivität der Mitarbeiter.
Reduzierung der Datenbestände durch Archivierung
Wird der Datenbestand auf den nötigen Umfang begrenzt, erleichtert dies das Handling mit den Daten erheblich. Zu diesem Zweck sollte turnusmäßig hinterfragt werden, welche Datensätze überhaupt noch gebraucht werden. Nicht mehr aktive Datensätze können archiviert werden. Auf diese Weise wird das System entlastet und gleichzeitig alle Dokumentationspflichten gegenüber staatlichen Stellen und den Kunden erfüllt. Außerdem wird die Qualität der anschließenden Datenanalysen erheblich verbessert, wenn nur aktive Datensätze einbezogen werden.
Die Datenbereinigung sichert Wettbewerbsvorteile
Mit dem Einsatz moderner Business Intelligence Tools versuchen Unternehmen, aus eigentlich wertlosen Datensätzen entscheidungsrelevante Informationen zu extrahieren, die einen Mehrwert bieten. Die Kenntnis der Kundenwünsche und das Identifizieren von Chancen und Risiken erhöht den Handlungsspielraum der Firma und verschafft ihr wertvolle Zeitvorteile. Wissen ist ein wichtiger Rohstoff und kann nur genutzt werden, wenn die Datenbasis möglichst optimal ist.
Um die Qualität des Datenbestandes sicherzustellen, ist es wichtig, geeignete Data Cleansing Maßnahmen durchzuführen. Grundlage dafür ist eine unternehmensweite Sensibilisierung für dieses Thema, die durch regelmäßige Qualifizierungsmaßnahmen unterstrichen werden sollte. Datenbereinigung ist eine kontinuierliche Aufgabe, die im Sinne eines iterativen Regelkreises immer wieder neu angegangen und hinsichtlich der Prämissen und Ziele hinterfragt werden muss.
Bildnachweis:©Shutterstock-Titelbild: Profit_Image – #01: whiteMocca – #02: SvetaZ – #03: bluebay