# Phasenmodell für den Datenbankentwurf

Wenn Datenbanksysteme zum Einsatz kommen sollen, handelt es sich meistens um Anwendungen bei denen Daten für mehrere Nutzer, Anwendungssysteme über mehrere Jahre bereitgestellt werden sollen. Daher ist es ratsam zuvor einen sogenannten Datenbankentwurfsprozess zu durchgehen. Hierbei geht es weniger um das DBMS als um die Modellierung der Datenbank selbst. Es sollen hierbei folgende Anforderungen beachtet werden:

- Anwendungsdaten jeder Anwendung sollen aus Daten der Datenbank ableitbar sein.
- Die Daten sollen möglichst effizient abrufbar sein.
- Nur wirklich benötigte Daten sollen gespeichert werden. Redundante Speicherung soll hierbei möglichst vermieden werden.

Ein Datenbankentwurfsprozess ist entsprechend durch den Entwurf mehrerer Entwurfsdokumente gekennzeichnet, wie in der Abbildung unten sehen ist. 

![title](phasenmodell.jpg)


Man beginnt mit einer abstrakten textuellen Beschreibung der Daten und endet mit der Realisierung des finalen Datenschemas in einem DBMS. Wir werden in diesem Kapitel die entsprechenden Formalismen und Modellierungssprachen kennen lernen, die so ein Entwurf durchlaufen wird. Da in jedem Entwurfsschritt unsere Datenbankbeschreibung weiterverfeinert wird, gibt es den Anspruch der Informations- und Konsistenzerhaltung.

### Anforderungsanalyse

Der aller erste Schritt des Datenbankentwurfes besteht in der Anforderungsanalyse. Die Methoden hier sind analog zu den Methoden der Anforderungsanalyse in Software-Engineering-Projekten. Insbesondere werden alle Stakeholder und Anwendungsgebiete der und deren Informationsbedarf identifiziert. Das Ergebnis ist eine informelle Beschreibung des Fachproblems. Der klassische Datenbank-Entwurf befasst sich hauptsächlich mit der Datenanalyse (- nicht mit der Funktionsanalyse, welche das Ergebnisdokument von Anforderungsanalyse von Softwaresystemen ist). 

### Konzeptioneller Entwurf

Im nächsten Entwurfsschritt versucht man die informelle Beschreibung der Datenbank zu formalisieren. 
Hier wird formal der Diskurswelt (Universe of Discourse) festgegelt. Das heißt es wird bestimmt um was es sich bei den Daten handeln soll und wie diese auf reale Objekte in der Welt abgebildet und abgegrenzt werden können. 

Das Sprachmittel hierbei ist eine Modellierungssprache, die Semantik von Daten ausdrücken kann. Es hat sich bisher die Entity-Relationship-Modellierung durchgesetzt, in der Objekte der Realen Welt als Entitypen und deren Beziehungen als Relationshiptypen modelliert werden können. 

Gleichzeitig wird in diesem Modellierungsschritt jegliche Mehrdeutigkeiten und Konflikte sinnvoll behoben um ein Gesamtschema zu erhalten, welche von den verschiedenen Anwendungsgebieten genutzt werden kann. Jegliche Konflikte hinsichtlich der Namensgebung, Typisierung, Bedingungen und Strukturierung von Informationen sollten an dieser Stelle behoben werden. 

Das Ergebnis ist damit ein konzeptionelles Gesamtschema, in der Form eines ER-Diagramms. Wir werden im nächsten Kapitel diese Modellierungssprache genau kennen lernen. 

### Verteilungsentwurf (Partitionierung)

Falls die Anwendung eine Verteilung der Daten erfordert, wird ein Verteilungsentwurf erstellt, welcher beschreibt, wie die Daten verteilten gespeichert werden sollen. Beispielsweise könnte es sinnvoll sein Daten horizontal oder vertikal auf mehreren Maschinen zu verteilen. Das hängt sehr stark vom Anwendungsgebiet und den erwarteten Anfragebelastungen (query work loads) ab. 


### Logischer Entwurf

Mit dem konzeptionellen Entwurf ist man generell in der Lage den finalen auf die DBMS ausgewählte Modellierung des sogenannten konzeptionellen Schemas durchzuführen. Gängige Datenmodelle sind hierbei das relationale Modell, Objekt-Orientierte Modelle, JSON, RDF und Schlüssel-Wert-Paare. Für viele diese Modelle gibt es automatisierte Verfahren für die Umwandlung aus dem ER-Modell. Wir werden konkrete Verfahren für die Umwandlung des ER-Modells in das relationale Modell kennen lernen. Das Ergebnis einer solchen Transformation ist ein logisches Schema, z.B. Sammlung von Relationen-schemata, die uns erlauben die Daten tabellarisch abzuspeichern.

### Datendefinition

Ist das Schema definiert kann man das konkrete Schema und die Speicherung von Daten durch sogenannten Data-Definition-Languages umsetzen. Wir werden hierbei konkret die deklarative Sprache SQL kennen lernen. 
SQL ist eine DDL (data definition language) und DML (data manipulation language) für relationale DBMS wie z.B. Postgres, DB2, SQL Server, ...
Der typische Befehl ist hier bei 
- CREATE TABLE …
Im gleichen Ansatz werden auch Anforderungen an die Integritätssicherung der Daten durch Definition von Schlüssel, Fremdschlüssel, Nebenbedingungen, und Datentypen gewährleistet. 
Zusätzlich können auch konkret die Anwendungssichten für die konkrete Datenbank definiert werden. Typisches Befehl hierzu ist 
- CREATE VIEW …

### Physischer Entwurf

■ DBMS nimmt automatisiert physischen Entwurf vor.
<br>
<br>
■ Ergänzen um Zugriffsunterstützung zur Effizienzverbesserung
<br>
<br>
□ z.B. Definition von Indizes
<br>
□ CREATE INDEX …
<br>
■ Index
<br>
□ Datenstruktur für effizienten, Suchschlüssel-basierten Zugriff auf
<br>
Datensätze
<br>
(<Schlüsselattributwert, Tupeladresse>)
<br>
□ Meist als Baumstruktur oder Hashtabelle realisiert
<br>
<br>
■ Beispiel
<br>
□ Tabelle mit 10 GB Daten
<br>
□ Festplattentransferrate ca. 50 MB/s
<br>
□ Operation: Suchen einer Bestellung (Selektion)
<br>
□ Implementierung: sequentielles Durchsuchen
<br>
□ Aufwand: 10.240/50 = 205 sec. = 3,5 min.

### Implementierung und Wartung

■ Wartung des DBMS
<br>
□ Parameter, Festplatten, etc.
<br>
<br>
■ Datenbank Tuning
<br>
□ Weitere Optimierung der physischen Ebene
<br>
<br>
■ Anpassung an neue Anforderungen
<br>
<br>
■ Anpassung an neue Systemplattformen
<br>
<br>
■ Portierung auf neue Datenbankmanagementsysteme
<br>
<br>
■ Kostenaufwändigste Phase
<br>
<br>
■ Software Engineering

## Integrationskonflikte

■ Namenskonflikte
<br>
□ Homonyme: Schloss, Kunde
<br>
□ Synonyme: Auto, KFZ, Fahrzeug
<br>
<br>
■ Typkonflikte
<br>
□ Verschiedene Strukturen für das gleiche Element
<br>
□ String vs. int vs. date
<br>
<br>
■ Wertebereichskonflikte
<br>
□ Verschiedene Wertebereiche für ein Element
<br>
□ KW 1 – 52 vs. Januar, Februar, …, Dezember
<br>
<br>
■ Bedingungskonflikte
<br>
□ z.B. verschiedene Schlüssel für ein Element
<br>
□ <\ISBN> vs. <Titel, Autor>
<br>
<br>
■ Strukturkonflikte
<br>
□ Gleicher Sachverhalt durch unterschiedliche Konstrukte ausgedrückt

NICHT enthalten: S.10