Datenbereinigung: Data Cleansing als Prämisse für Big Data Analytics

0

Damit mit den Big Data Analytics wertvolles Wissen aus der Flut von Daten, die auf Unternehmen einstürzen, gewonnen werden können, muss zuvor eine hohe Datenqualität sichergestellt werden. Auch dafür stehen intelligente Analytic Tools zur Verfügung. Mit diesen Tools wird der gesamte Datenbestand systematisch durchleuchtet und hinsichtlich festgelegter Qualitätskriterien bewertet sowie anschließend entsprechend modifiziert. Diese Datenbereinigung wird auch als Data Cleansing bezeichnet.

Datenmüll gefährdet den Erfolg des Unternehmens

Die digitale Transformation schreitet voran und das Ziel Industrie 4.0 rückt in immer greifbarere Nähe. Mittlerweile nutzen mehr als ein Drittel aller Unternehmen Big Data Analytics, um mit Hilfe der Analyse-Tools unternehmerische Entscheidungen wissensbasiert abzusichern. In der Informationsgesellschaft entstehen massenweise Daten und Unternehmen stehen vor der Herausforderung zu entscheiden, welche dieser Daten überhaupt relevant sind und wie die Daten aus verschiedenen Datenquellen harmonisiert und zu einer verlässlichen Datenbasis zusammengeführt werden können. Bedenkt man, dass die Daten der Input für alle Business Analytics Tools sind, wird ersichtlich, dass auch die besten Business Intelligence Tools nicht erfolgreich eingesetzt werden können, wenn die Datenbasis nicht die erforderliche Qualität aufweist. Eine Studie des Forschungsinstituts für Rationalisierung ergab, dass 0,5 Prozent des Umsatzes aufgrund mangelhafter Datenqualität verloren gehen.

Die Datenbereinigung hat folgende positive Effekte:

  • Verbesserung der Datenbasis als Input für die BI Tools
  • Optimierung der kundenspezifischen Marketingaktionen
  • Beschleunigung der Geschäftsprozesse
  • Lieferung der korrekten Daten für das Risikomanagement
  • Erfüllung der Dokumentationspflichten
  • Sicherstellung der Datensicherheit und des Datenschutzes
  • Ermöglichung von Cross-Selling-Strategien
  • Schaffung von Voraussetzungen für das Multi-Channel-Marketing
  • Optimierung der Lagerhaltung
  • Erkennung von Chancen und Risiken

Fehlerhafte, veraltete, redundante oder unvollständige Daten führen zu falschen Rechnungen und Lieferverzögerungen und somit zur Unzufriedenheit der Kunden und zum Verlust von Marktanteilen. Im Produktionsbereich werden durch einen mangelhaften Datenbestand Abläufe verlangsamt oder die vorausschauende Maschinenwartung erschwert. Folge sind zusätzliche Arbeitsstunden, Produktionsausfälle und Lieferengpässe.

Auch im Lagerbereich verursacht eine falsche Datenbasis Kosten, wenn Doppelbestellungen erfolgen oder benötigte Teile nicht vorrätig sind. Nicht immer sind die Kosten einer schlechten Datenqualität quantifizierbar. Besonders Imageverluste und die daraus resultierende Abwanderung von Kunden sowie Probleme mit der Motivation der Mitarbeiter führen jedoch unweigerlich zu Umsatzeinbußen und einer Erhöhung der Kosten.

Wenn es darum geht, die Datenbasis zu beurteilen, stehen in vielen Unternehmen bisher einseitig die Aspekte des Datenschutzes und der Datensicherheit im Vordergrund. Das ist unbestritten sinnvoll und deutsche Unternehmen befinden sich in diesem Bereich an der Weltspitze. (#01)

Wenn es darum geht, die Datenbasis zu beurteilen, stehen in vielen Unternehmen bisher einseitig die Aspekte des Datenschutzes und der Datensicherheit im Vordergrund. Das ist unbestritten sinnvoll und deutsche Unternehmen befinden sich in diesem Bereich an der Weltspitze. (#01)

Data Cleansing rückt die Datenqualität in den Fokus

Wenn es darum geht, die Datenbasis zu beurteilen, stehen in vielen Unternehmen bisher einseitig die Aspekte des Datenschutzes und der Datensicherheit im Vordergrund. Das ist unbestritten sinnvoll und deutsche Unternehmen befinden sich in diesem Bereich an der Weltspitze. Es ist darüber hinaus jedoch unverzichtbar, sich auch mit dem Thema der Datenqualität auseinanderzusetzen. Um die dafür nötige Motivation aufzubringen, ist es hilfreich, sich zu vergegenwärtigen, dass Datenmüll zu einem konkreten Risiko für den Unternehmenserfolg werden kann.

Warum gefährdet Datenmüll den Unternehmenserfolg?

Der 2016 Data Quality Benchmark Report ergab, dass Unternehmen davon ausgehen, dass fast ein Viertel ihrer Daten nicht korrekt sind. 75 Prozent der Unternehmen befürchten negative Auswirkungen auf den Kundenservice und damit letztlich auf die Kundenzufriedenheit. Dennoch sind die Unternehmen pessimistisch, wenn es darum geht, diese Mängel durch eine konsequente Datenbereinigung zu beseitigen. Meist wird eingewendet, dass es an Wissen, Qualifikationen und auch an den personalen Ressourcen fehle, die nötig wären, um die Datenbereinigung durchzuführen.

Dennoch führt kein Weg an der Erkenntnis vorbei, dass die Datenbereinigung unverzichtbar ist und zum integralen Bestandteil des Analytics-Prozesses werden muss. Daten sind der Rohstoff einer digitalisierten Wirtschaft. In jeder Firma werden massenhaft Daten über die Kunden, Konkurrenten, Mitarbeiter und die eigene Produktion aber auch über die Umwelt gesammelt. Ziel ist es, einen Wissensvorsprung gegenüber der Konkurrenz zu erreichen, um schneller auf Kundenwünsche oder veränderte Bedingungen im Wettbewerb reagieren zu können.

Das ist jedoch nur möglich, wenn mit den erhobenen Daten die Realität auch korrekt abgebildet wird. Ist dies nicht der Fall, läuft das Unternehmen Gefahr, Entscheidungen aufgrund falscher Annahmen zu treffen. In einem globalisierten Wettbewerb können derartige Fehlentscheidungen des Managements zum existenzgefährdenden Risiko für das Unternehmen werden. Die erste Maßnahme zur Erreichung einer hohen Datenqualität ist deshalb die Sensibilisierung für die Wichtigkeit des Themas. Darauf aufbauend müssen organisatorische, technologische und konzeptionelle Maßnahmen zur Datenbereinigung ergriffen werden.

Das Thema Datenqualität sollte Teil der Unternehmensstrategie sein und seine Bedeutung sollte unternehmensweit kommuniziert werden. Das ist die Grundlage für die folgenden Maßnahmen der Datenbereinigung. (#02)

Das Thema Datenqualität sollte Teil der Unternehmensstrategie sein und seine Bedeutung sollte unternehmensweit kommuniziert werden. Das ist die Grundlage für die folgenden Maßnahmen der Datenbereinigung. (#02)

Datenbereinigung als Basis für die Datenanalyse

Das Thema Datenqualität sollte Teil der Unternehmensstrategie sein und seine Bedeutung sollte unternehmensweit kommuniziert werden. Das ist die Grundlage für die folgenden Maßnahmen der Datenbereinigung.

Organisatorische Verankerung der Datenbereinigung

Datenqualität ist ein derart wichtiges Thema, dass es sinnvoll ist, dafür eine organisatorische Einheit zu schaffen. Im sogenannten Data Governance werden alle Personen, Prozesse und Verfahren zusammengefasst, mit denen die Datenbereinigung erfolgen soll. Hier werden die Kompetenzen und Aufgaben der Datenbereinigung gebündelt. Das Datenqualitätsteam sorgt dafür, dass die Datenbasis des Unternehms aktuell, fehlerfrei und darüber hinaus konsistent ist. Das kann nur gelingen, wenn die Mitarbeiter dieses Teams ausreichend in alle Prozesse des Unternehmens eingebunden sind.

Ziel ist die Optimierung der Geschäftsprozesse und die Identifizierung der Kundenwünsche. Zu diesem Zweck sollten auch Daten aus dem Marktumfeld und von den Konkurrenten in die Betrachtung einbezogen werden. Die Benennung eindeutiger Verantwortlichkeiten für die Datenerfassung und Datenbereinigung ist überaus wichtig, damit parallele Datenbanken und ein hoher Aufwand für deren Synchronisierung vermieden werden.

Festlegung von Standards für die Datenqualität

Um zu beurteilen, welche Daten gut und welche schlecht sind, muss zunächst festgelegt werden, wie der optimale Datensatz aussehen soll. Dazu muss Einigkeit darüber hergestellt werden, welche Informationen relevant sind. Es werden in dieser Phase beispielsweise Fragen beantwortet, ob die E-Mail-Adresse zwingend in die Kundenadress-Datei gehört oder nicht. Die Merkmale eines perfekten Datensatzes werden festgelegt und als Grundlage für die Bewertung des Datenbestandes herangezogen. Außerdem muss entschieden werden, wie Datensätze zu behandeln sind, die nicht diesen Vorgaben entsprechen.

Kritische Analyse des Datenbestands

In dieser Phase soll der Ist-Zustand festgestellt werden. Es gibt leistungsstarke Analyse-Tools, mit denen der Datenbestand eines Unternehmens effizient durchleuchtet wird. Auf diese Weise werden Probleme relativ einfach identifiziert und auch Aussagen über die Häufigkeiten der Fehler sind möglich. Es werden Dubletten und unvollständige Datensätze sowie falsche Datensätze erkannt. Außerdem werden Widersprüche innerhalb der Datenbestände aufgedeckt.

Nicht nur die Qualität auch die Quantität der Daten stellt das Datenqualitätsmanagement vor große Herausforderungen. Es werden exponentiell wachsende Datenmengen automatisch erfasst und anschließend verarbeitet. (#03)

Nicht nur die Qualität auch die Quantität der Daten stellt das Datenqualitätsmanagement vor große Herausforderungen. Es werden exponentiell wachsende Datenmengen automatisch erfasst und anschließend verarbeitet. (#03)

Datenverdichtung als neue Herausforderung für die Datenbereinigung

Nicht nur die Qualität auch die Quantität der Daten stellt das Datenqualitätsmanagement vor große Herausforderungen. Es werden exponentiell wachsende Datenmengen automatisch erfasst und anschließend verarbeitet. Dabei ist es schwierig zu entscheiden, welche Daten überhaupt einen Mehrwert für das Unternehmen darstellen und wie viele falsche, nicht mehr aktuelle, unvollständige oder inkonsistente Datensätze sich in den Datenbergen befinden.

Eine automatische Datenerfassung minimiert zwar Eingabefehler, es fehlt jedoch auch der kritische Blick des Mitarbeiters auf die Daten. Es ist jedoch gerade das Ziel der Digitalisierung, den Menschen als Korrektiv zu ersetzen. Maschinen, Anwendungen und Systeme sollen selbstständig miteinander kommunizieren. Deshalb sind automatisierte Prozesse der Datenbereinigung und der Einsatz der Analyse-Tools wichtig.

Optimale Bedingungen für eine hohe Datenqualität schaffen

Schon bei der Erfassung der Daten sollte die Datenqualität optimiert werden, um später aufwendige Korrekturen zu vermeiden. Zu diesem Zweck ist eine benutzerfreundliche Gestaltung der Eingabemasken und die Möglichkeit der Nutzung automatisierter Workflows für die Dateneingabe wichtig. Auch die bereits in den ERP-Systemen enthaltenen Prüfschritte, mit denen die Plausibilität und Vollständigkeit kontrolliert werden, tragen zu einer hohen Datenqualität bei. Ein großes Ärgernis sind Dubletten, die man mit eindeutigen Artikelbezeichnungen und dem Vermeiden von Abkürzungen minimieren kann.

Mit dem Einsatz der Analyse-Tools ist es möglich, den gesamten Datenbestand des Unternehmens in regelmäßigen Abständen zu durchleuchten. (#04)

Mit dem Einsatz der Analyse-Tools ist es möglich, den gesamten Datenbestand des Unternehmens in regelmäßigen Abständen zu durchleuchten. (#04)

Daten bereinigen und diesen Prozess regelmäßig wiederholen

Mit dem Einsatz der Analyse-Tools ist es möglich, den gesamten Datenbestand des Unternehmens in regelmäßigen Abständen zu durchleuchten. Dabei werden die festgelegten Qualitätsstandards als Maßstab herangezogen. Es ist außerdem nötig, einen Qualitätslevel festzulegen, der mit der Datenbereinigung erreicht werden soll. Nach dem ersten Durchlauf sollten die Prozesse in einem festgeschriebenen Turnus wiederholt durchgeführt werden. Nur die Devise „keep it clean“ kann zu einer dauerhaft hohen Datenqualität führen. Wichtigste Hilfsmittel sind dabei die ERP-Systeme und Data-Mining-Tools. Damit diese Informationstechnologien auch erfolgreich angewendet werden, ist es unerlässlich, die Mitarbeiter in diesem Bereich zu schulen und für eine ständige Weiterbildung zu sorgen.

Mit der Datenbereinigung werden mehrere Ziele verfolgt:

  • Daten aus unstrukturierten und strukturierten Quellen erfassen
  • Identifizierung von Dubletten
  • Formatierung der Datensätze harmonisieren
  • Prüfung und Korrektur der Adressdaten
  • Aggregation und Konsolidierung der Daten
  • Aufnahme sinnvoller Zusatzinformationen wie Geodaten
  • Weiterverarbeitung der Daten ermöglichen

Datenbasis durch Archivierung gezielt verkleinern

Die riesige Menge der Daten ist ein nicht zu unterschätzendes Problem. Deshalb ist es sinnvoll, in regelmäßigen Abständen zu überprüfen, welche Datensätze überhaupt gebraucht werden. Nicht mehr aktive Datensätze sollten archiviert werden, damit die gesamte Datenmenge besser gemanagt werden kann. Damit wird außerdem die Qualität der anschließenden Datenanalysen erhöht, denn die Einbeziehung der nicht-aktiven Datensätze führt zu Verzerrungen. Auf eine Archivierung darf jedoch keinesfalls verzichtet werden, da das Unternehmen umfangreiche Dokumentationspflichten gegenüber den Kunden und den staatlichen Institutionen erfüllen muss.

Datenbereinigung beseitigt Stolpersteine auf dem Weg zu Big Data

Daten sind ein wertvoller Produktionsfaktor für die Unternehmen und es gab noch nie zuvor so viele Möglichkeiten, Daten zu erheben und auszuwerten. Moderne Business Intelligence Tools leisten wertvolle Hilfestellungen bei der operativen und strategischen Ausrichtung des Unternehmens. Es ist möglich, datenbasiert Marketingstrategien auszuarbeiten und Kunden individuell anzusprechen. Im Produktionsbereich werden Abläufe beschleunigt und durch vorrausschauende Wartung Maschinen- und Produktionsausfälle vermieden.

Auch die globale Zusammenarbeit unterschiedlicher Unternehmen eines Konzerns wird durch eine erfolgreiche digitale Transformation erleichtert. Um jedoch von den Vorteilen der Digitalisierung profitieren zu können, müssen die Unternehmen darauf achten, dass der Input dieser Anwendungen und Systeme, die Datenbasis, von hoher Qualität ist. Mit einer gezielten Strategie der Datenbereinigung, die von der Unternehmensführung getragen wird, können Unternehmen dafür optimale Bedingungen schaffen.


Bildnachweis:©Shutterstock-Titelbild: Den Rise-#01 : Wichi -#02: Photon photo  -#03:  NikVector  -#04: Pavel Ignatov

Lassen Sie eine Antwort hier