Datenmodellierung: Von der Datenflut zur einsatzfähigen Datenbank

Datenmodellierung ist ein wichtiger Schritt hin zur Entwicklung eines Data Warehouse und der Realisierung von Big Data. In der Praxis stehen dimensionale und normalisierte Datenmodelle zur Verfügung, mit denen die immense Datenflut, die auf Unternehmen einstürzt, in Datenbestände transformiert wird, die mit Hilfe innovativer BI Tools zu aussagekräftigen und somit entscheidungsrelevanten Informationen umgewandelt werden. Ergebnis der Datenmodellierung ist ein grafisch dargestelltes Datenschema.

Im Bereich der Modellierung ist es ganz besonders wichtig, Kommunikationsprobleme zwischen IT-Fachleuten und Anwendern zu vermeiden. Das Modell der Daten soll durch die Vereinfachungen und die Reduzierung auf Fakten erreichen, eine komplexe Realität datentechnisch korrekt und dennoch übersichtlich und verständlich abzubilden. Die Datenmodellierung ist die erste Phase des integrierten Datenmanagement.

Herausforderungen an die Datenmodellierung

Um die Datenbestände eines Unternehmens zu einer konsistenten, redundanzfreien Datenbank zusammenzufügen, bedarf es eines Konzepts der Datenmodellierung. Ziel ist die Generierung eines Datenmodells, das auf die Erfordernisse des Unternehmens und die modernen Business Analytics Tools abgestimmt ist. Mit der Datenmodellierung wird der Tatsache Rechnung getragen, dass Daten gleichwertige Komponenten eines Informationssystems sind. Die Komplexität dieser Aufgabe steigt permanent, da neben gut strukturierten Datenquellen auch zunehmend unstrukturierte Datenquellen in die Entscheidungsprozesse einbezogen werden müssen.

Aus den Datensätzen ein Modell zu formen und dieses zu visualisieren, ist eine Herausforderung, die nur mit einem Konzept bewältigt werden kann. Dabei ist es wichtig, die Datenmodelle so zu planen, dass sie die Informationen aus verschiedensten Datenquellen aufnehmen können. Für das Verständnis konventioneller Datenbankanwendungen ist die Kenntnis von Grundlagen der Datenbanksprache SQL notwendig. Innovative Ansätze vereinfachen jedoch die Modellierung, sodass auch Nutzer, die nicht über diese IT-Kenntnisse verfügen, Datenanalysen durchführen und die Ergebnisse interpretieren können.

Video: 03-01 Datenmodellierung

Was bildet das Modell ab?

Es geht um die Identifikation und anschließende Beschreibung von Informationsobjekten und deren Beziehungen zueinander mit dem Ziel der Generierung eines Informationssystems. Bei der Datenmodellierung werden die Informationsobjekte im Hinblick auf ihre Attribute und Beziehungen abgebildet und so zu einem Modell der Daten transformiert. Ziel ist es, die Objekte des Informationssystems eindeutig zu definieren und zu spezifizieren.

Aus diesem Grund werden die Attribute, die für Informationszwecke geeignet sind, sowie die Zusammenhänge zwischen den Informationsobjekten analysiert. Auf diese Weise soll ein umfassender Überblick über die Datensicht eines Informationssystems erreicht werden. Allgemein werden nicht die einzelnen Informationsobjekte, sonder vielmehr Objekttypen betrachtet und somit generelle Eigenschaften und Interdependenzen abgebildet. Ergebnis dieses Prozesses ist das Datenschema, das einen Bauplan für die Gestaltung der Datenbanken darstellt.

Elemente der Datenmodellierung

Das Modell besteht unabhängig von seiner konkreten Ausgestaltung aus folgenden Elementen:

Selbstständige Objekttypen als Träger der Daten
Attribute zur Charakterisierung der Objekttypen
unselbstständige Beziehungsobjekttypen

Die unselbstständigen Beziehungsobjekttypen werden durch ihre Assoziationseigenschaften beschrieben. Auf diese Weise werden Erkenntnisse darüber gewonnen, welche Transformation in sinnvolle Relationen möglich sind. Jeder Objekttyp erhält einen Primärschlüssel, mit dem jedes einzelne Exemplar dieses Objekttyps eindeutig identifiziert werden kann. Der Primärschlüssel wird dazu genutzt, die Interdependenzen zwischen den Exemplaren verschiedener Objekttypen herzustellen. Die Primärschlüssel können künstlich generiert werden. Es ist auch möglich, dafür ein oder mehrere Attribute eines Objekttyps zu verwenden. Deren Werte dürfen jedoch in der Kombination nur einmal vorhanden sein.

Planung von Datenmodellen und Abstimmung auf die Datenquellen

Datensätze aus verschiedenen Datenquellen müssen durch Verbindungsmanager in ein BI Modell integriert werden. Die unterschiedlichen Datenquellen unterscheiden sich hinsichtlich der Aktualisierungs-Rhythmen und Granularitäten. Die ETL-Prozesse dienen dazu, die Datensätze auf ein einheitliches fachliches Level zu bringen. In einer „High Level Map“ werden die verschiedenen Aktualisierungsintervalle dokumentiert, sodass immer nur einzelne Datenquellen aktualisiert werden müssen. Ist es nicht möglich, in dieser Hinsicht einen gemeinsamen Nenner zu finden, sollte eine ETL-Strecke in die Datenbankanwendung implementiert werden, damit eine Analyseschicht für Auswertungen bereitgestellt werden kann.

Video: Tutorial Modul D1 Datenmodellierung

Welche Anforderungen müssen an das Modeling gestellt werden?

Das Modell muss so konzipiert werden, dass es den Anforderungen, die daran gestellt werden, gerecht wird und diese Anforderungen korrekt und darüber hinaus präzise abbildet. Es ist wichtig, keine Ungenauigkeiten oder Mehrdeutigkeiten zuzulassen. Ziel sind präzise Definitionen und Konzepte.

Dabei sollte während des gesamten Prozesses darauf geachtet werden, alle Fragestellungen und Ergebnisse genauestens zu dokumentieren, damit eine Nachvollziehbarkeit des Datenmodells gewährleistet ist. Letztlich ist die Datenmodellierung eng damit verbunden, das Business vollständig zu durchdringen und zu verstehen. Nur dann ist es möglich, Systemfelder und deren Beziehungen untereinander zu interpretieren.

Unterschiede der Modellierung mit einer relationalen oder einer NoSQL Datenbank

Das Datenbankdesign einer relationalen Datenbank ähnelt in seiner Struktur meist dem logischen Datenmodell. Die Unterschiede zwischen Datenbank- und Datenmodellstruktur resultieren aus Leistungsänderungen oder den Einflüssen von Werkzeugen. Bei einer NoSQL Datenbank ist es möglich, dass die Datenbankstruktur sich völlig von der logischen Struktur des Modells unterscheidet.

Zielsetzung der Datenmodellierung

Damit Datenbanken für das Unternehmen erstellt werden können, muss zunächst eine Anforderungsanalyse durchgeführt werden. Es stehen unterschiedliche Modelle zur Auswahl, um diesen Prozess zielorientiert durchzuführen. Die Anforderungsanalyse bildet die Basis für die Ableitung eines semantischen Modells. Dieses Modell wird im nächsten Schritt in ein logisches Modell überführt, das schließlich in ein physisches Modell übertragen wird.

Das Datenmodell ist ein Abbild der Realität oder eines Ausschnitts dieser Realität. Die Modellbildung ist somit nichts anderes als ein Abbildungsprozess und nur so gut, wie es gelingt, eine möglichst hohe Ähnlichkeit von Realität und Modell zu erreichen. Es ist deshalb entscheidend, den gewählten Ausschnitt der Realität detailliert zu erfassen und abzubilden, also korrekt zu beschreiben. Ergebnis ist das Datenmodell.

Die grafische Darstellung aller Datenbanktabellen (Relationen) inklusive der Beziehungen und Schlüssel dieser Tabellen bildet dann das Datenbankschema ab. Anforderungen der User und auch deren Denkweise müssen bei der Datenmodellierung berücksichtigt werden, damit die Modelle auch zur Wissensgenerierung genutzt werden können.

Die Funktionen des Modells lassen sich folgendermaßen zusammenfassen:

Transparente Abbildung wichtiger Informationszusammenhänge
einheitliche und verständliche Definition der Begriffswelt
Identifikation von Schwachstellen der Organisation

Wenn das Datenmodell diese Ziele erreicht, kann es als Verständigungsmittel zwischen den einzelnen Fachabteilungen des Unternehmens dienen und bildet den Rahmen für die Datenmodellierung. Wichtig ist dabei, dass die Datenbanken gegenüber Einzelanwendungen neutral sind, sie müssen also einerseits bereichsübergreifend und andererseits redundanzfrei sein. Durch das Datenmodell werden die Daten für die Anwender verständlich, somit ist die Datenmodellierung eine unabdingbare Voraussetzung, damit die Fülle an Informationen, mit denen sich Unternehmen auseinandersetzen müssen, überhaupt einen Nutzen stiften kann.

Wenn das Datenmodell diese Ziele erreicht, kann es als Verständigungsmittel zwischen den einzelnen Fachabteilungen des Unternehmens dienen und bildet den Rahmen für die Datenmodellierung. (#01)

Datenmodellierung: Entscheidend für die Funktionalität der Datenbank

Ein Modell, das die Daten erklärt, ermöglicht das Erzielen von Wettbewerbsvorteilen. Es werden bei der Entwicklung und beim Support Kosten eingespart und der Aufbau höherwertiger Systeme, mit denen eine bessere Performance erzielt wird, ist leichter.

Normalisierte Modellierung

Bei dieser Art der Datenmodellierung wir ein umfassendes Datenmodell für das gesamte Unternehmen aufgebaut. Der Datenbestand soll sich durch einen möglichst hohen Detaillierungsgrad und optimale Qualität auszeichnen. Ergebnis ist ein großer Datenpool, die einheitliche Definition von Kennzahlen und das relativ einfache Aufbauen neuer Marts. Das Modell muss jedoch sehr komplex sein und enthält eine Fülle von Tabellen und Verknüpfungen. Dies hat zur Folge, dass die Erstellung und auch die Erweiterung und Pflege des Modells sehr aufwendig sind. Damit ist diese Art der Datenmodellierung nicht sehr agil und somit den Anforderungen einer dynamischen Umwelt nicht gewachsen.

Dimensionale Modellierung

Diese Art der Modellierung soll die Nachteile einer normalisierten Modellierung überwinden, indem die Datensätze mit einer Star- bzw. Snowflake-Schema-Modellierung in Dimensions- und Faktentabellen abgelegt werden. Im Vordergrund steht eine Orientierung an der Denkweise der Anwender und deren Verständnis des Geschäftsmodells. Bei dieser Methode ist sowohl der Aufwand für die Ersterstellung des Datenmodells als auch für dessen Weiterentwicklung wesentlich überschaubarer. Ergeben sich Änderungen an den Datenquellen oder dem Geschäftsmodell, erweist sich die Methode jedoch als wenig robust.

Video: Agile Softwareentwicklung wird vielerorts gehypt“

Data Vault: Datenmodellierung für agile Systeme

Dies ist ein innovativer Datenmodellierungs-Ansatz. Ergebnis sind Datenbankstrukturen, die sich schnell und flexibel veränderten Bedingungen anpassen, indem relativ einfach Strukturänderungen vorgenommen werden können. Zu diesem Zweck werden Namenskonventionen und Modellierungsparadigmen so weit wie möglich vereinfacht und dadurch eine wesentliche Reduzierung der Komplexität ermöglicht.

Alle Datensätze werden in einem generischen Modell abgelegt, wodurch ein besseres und schnelleres Verständnis für die Beziehungen innerhalb des Datenmodells erreicht wird. Dies wird durch eine konsequente Trennung der Schlüssel (HUB-Tabellen) von den beschreibenden Attributen (SATellite-Tabellen) und den Informationen hinsichtlich der Beziehungen (LINK-Tabellen) gewährleistet. Eine derartige Modellierung ist konsistent, flexibel und darüber hinaus skalierbar. Die Anpassung an veränderte Bedingungen ist schnell und einfach möglich und deshalb eignet sich die Methode besonders für agile Systeme.

Optimale Datenmodellierung: Wichtiger Schritt auf dem Weg zum integrierten Informationsmanagement

Big Data, Industrie 4.0 und das Internet of Things sind die Schlagworte unserer Zeit. Allen ist eines gemeinsam: Für ihre Realisierung ist es unabdingbar, dass die Unternehmen Wege finden, riesige Datenmengen unterschiedlichster Quellen und Formate zu verarbeiten und daraus Informationen für die Unternehmensführung abzuleiten. BI Software löst zunehmend traditionelle Formen des Controlling ab und führt dazu, dass von den Mitarbeitern auch ohne fundierte IT-Kenntnisse unternehmensweit im Self-Service Datenanalysen durchgeführt werden können.

Grundlagen für die Anwendung der modernen Software bilden die Datenmodelle in den Unternehmen. Auf Basis des Datenmodells kann die Datenbankstruktur generiert werden. Mit den dargestellten innovativen Methoden der Datenmodellierung ist es möglich, Data Warehouses zu erstellen, die auch von Usern, die nicht über Kenntnisse der Datenbanksprache SQL verfügen, genutzt werden können.

Letztlich ist es das Ziel, einen Architektur- und Modellierungsansatz zu finden, der die Komplexität der Erstellung und Erweiterbarkeit von Datenbanken reduziert. Data Vault ermöglicht die Vorteile eines normalisierten mit denen eines dimensionalen Modeling zu verbinden und ist somit ein zeitgemäßer Ansatz für die Datenmodellierung in Unternehmen.