# Datenbanken

Datenbanken sind organisierte Sammlungen von Daten. 

## Relationale Datenbanken

* Daten werden in 2-dimensionalen Tabellen gespeichert.
* Die Tabellen (Relationen) sind logisch miteinander verknüpft.
* Eine Tabellenzeile zeigt Informationen über eine Entität (Datensatz)
* Eine Tabellenspalte entspricht dem Attribut einer Entität
* Abfragesprache SQL
* Ziel: Minimiere Redundanzen und maximiere Konsistenz der Daten

In [None]:
# in dieser Tabelle gibt es Redundanzen mit der Gefahr der Inkonsistenz
Tabelle: student

name     ort        fach         semester
-----------------------------------------
Malte    Münster    Philosophie  12      
Malte    Münster    Mathematik   12      
John     Bochum     BWL          5       
John     Bochum     Informatik   5             


### Entwurf einer Datenbank
1. Wir modellieren unser Anwendungsproblem mit Objekten und ihren Beziehungen (ER-Modell)
2. Wir setzen das ER-Modell in Tabellen um.
3. Wir reorganisieren die Tabellen um minimale Redundanz und maximale Konsistenz zu erreichen.

## Entity-Relationship Modell

**Entitäten** entsprechen Objekten der realen Welt (Malte), **Entitätstypen** den Klassen (Student) und werden im
**ER-Diagramm** durch Rechtecke dargestellt. **Attribute** der Entitäten werden durch Ellipsen dargestellt.

**Beziehungen (Relationships)** zwischen Entitäten werden durch Rauten dargestellt. Auch Beziehungen können Attribute haben.

**Kardinalitäten** beschreiben, wie viele Entitäten an einer
konkreten Beziehung beteiligt sein können. Es sind 1:1, 1:n und
m:n-Beziehungen möglich.

Für jeden Entitätstyp wird ein **Primärschlüssel** festgelegt, der eine konkrete Entität eindeutig identifiziert. Der Primärschlüssel wird im ER-Diagramm unterstrichen.

Erhält eine Tablle den Primärschlüssel einer anderen Tabelle als Attribut, so spricht man von einem **Fremdschlüssel**.

Beispiel: ER-Diagramm für einen Online-Buchhandel

![a](img/datenbanken01.png)

## Umsetzung des ER-Modells in Tabellen

Die Informationen des ER-Diagramms werden in Tabellen überführt. Die Struktur der Tabellen wird als **Schema** bezeichnet.
Im Schema werden Primärschlüssel unterstrichen und Fremdschlüssel mit einem Pfeil versehen. 

----

Zur vereinfachten Darstellung werden die Primärschlüssel hier fett gedruckt und die Fremdschlüssel kursiv gedruckt.
Beispiel:

Buch(**ISBN**,Titel,Autor,Preis,Kategorie,_VID_)

steht für:

![b](img/datenbanken_schema.png)

----

**Jede Entität bekommt eine eigene Tabelle.** 

* Verlag(__VID__,Name,Sitz,Ansprechpartner)  
* Buch(__ISBN__,Titel,Autor,Preis,Kategorie)
* Kunde(__Benutzername__,Passwort,Vorname,Nachname,Adresse,E-Mail)
* Darstellung(__DID__,d_Bewertung,lieferbar)

**Eine 1:1-Beziehung erhält keine eigene Tabelle.** Einer der beiden Relation erhält den Primärschlüssel der anderen als Fremdschlüssel. Attribute werden ggf. übernommen.

* Darstellung(**DID**,d_Bewertung,lieferbar,_ISBN_)

**Eine 1:n Beziehungen erhält keine eigene Tabelle.** Die Relation mit Kardinalität n erhält den anderen Primärschlüssel als Fremdschlüssel. Attribute werden ggf. übernommen.

* Buch(**ISBN**,Titel,Autor,Preis,Kategorie,_VID_)



**Eine n:m-Beziehung erhält eine eigene Tabelle.** Die Primärschlüssel der beteiligten Entitäten werden als Fremdschlüssel hinzugefügt. Die Kombination der Fremdschlüssel ist der neue Primärschlüssel. Attribute werden ggf. übernommen.

* bestellt(**_ISBN_**,**_Benutzername_**,Anzahl)





## Referentielle Integrität

Die **referentielle Integrität** ist gewährleistet, wenn es zu jedem Fremschlüssel tatsächlich einen zugehörigen Datensatz mit gleichem Primärschlüsselwert in der referenzierten Tabelle gibt.

Beispiel: referentieller Integrität stellt sicher, dass man keine Schüler einer AG zuordnen kann, die es im System gar nicht gibt.

![a](img/datenbanken_refint.png)

## Anomalien

**Anomalien** sind Probleme und Fehler, die bei Operationen auf den Daten einer Datenbank entstehen können. 


#### Einfügeanomalie
Eine Einfügeanomalie entsteht dann, wenn man etwas zur Datenbank hinzufügen möchte, dafür aber keinen (logischen) Platz findet.
Für eine Information, die inhaltlich zum Thema der Datenbank gehört, finden wir keine Tabelle.


In [None]:
Tabelle: kursleiter
name     kurs      
-------------------
Schulte  Mathe_11a 
Bauer    Mathe_11b 
Schmidt  Englisch_11a

Eine Schule will einen neuen Kurs einrichten, z.B: Informatik_11a, hat aber noch keinen Kursleiter. Wenn die Tabelle kursleiter die einzige Stelle in der Datenbank ist, wo Kurse erwähnt werden, finden wir für diese Information keinen Platz.


Grund für die Anomalie: Wir haben das reale-Welt-Ding 'Kurs' in unserer Datenbank nicht als eine Entität modelliert, sondern nur als Attribut einer anderen Entität. Lösung:

In [None]:
Tabelle: kursleiter
name     kurs      
-------------------
Schulte  M11a      
Bauer    M11b      
Schmidt  E11a      

Tabelle: kurse
kursid   kurs      
-------------------
M11a     Mathe_11a 
M11b     Mathe_11b 
E11a     Englisch_11a
Inf11a   Informatik_11a

#### Änderungsanomalie
Eine Änderungsanomalie liegt dann vor, wenn die Änderung eines Attributs dazu führt, dass an mehreren Stellen Änderungen notwendig sind (Redundanzen mit der Gefahr von Inkonsistenz). 

In [None]:
Tabelle: kurs
kursid   fach         raum     plaetze 
---------------------------------------
Inf11a   Informatik   R101     30      
M11a     Mathematik   R203     32      
M11b     Mathematik   R203     32      
E11a     Englisch     R205     28   

Wenn Raum R203 umgebaut wird, so dass nur noch 29 Plätze zur Verfügung stehen, müssen an mehrere Stellen updates gemacht werden. Das Attribut *plaetze* ist in Wirklichkeit nicht von dem Primärschlüssel *kursid* abhängig, sondern von dem Attribut *raum*. Lösung: 
Wir modellieren das reale-Welt-Ding Raum in unserer Datenbank als Entität.

In [None]:
Tabelle: kurs
kursid   fach         raum     
-------------------------------
Inf11a   Informatik   R101     
M11a     Mathematik   R203     
M11b     Mathematik   R203     
E11a     Englisch     R205     

Tabelle: raum
raum     plaetze  
------------------
R101     30       
R203     32       
R205     28       

#### Löschanomalie
Eine Löschanomalie tritt dann auf, wenn bei dem Löschen einer Information eine andere, möglicherweise wichtige Information, auch gelöscht wird.

In [None]:
Tabelle: kurs
kursid   fach         raum     plaetze 
---------------------------------------
Inf11a   Informatik   R101     30      
M11a     Mathematik   R203     32      
M11b     Mathematik   R203     32      
E11a     Englisch     R205     28   

Wenn wir Kurs Inf11a löschen, verlieren wir auch die Information über die Kapazität von Raum R101. Lösung wie oben.

## Normalisierung

Durch Umstrukturierung kann man eine Datenbank in verschiedene Normalformen bringen: **1NF, 2NF, 3NF, Boyce-Codd NF, 4NF**.
Eine Datenbank in 3NF ist in der Regel frei von Anomalien.

Wir beschränken uns hier auf eine informelle Beschreibung:

**1NF**: Die Attribute sind atomar und es kommen keine Wiederholfelder vor. <br>
**2NF**: 1NF + jedes nicht zum Primärschlüssel gehörende Attribut ist vom gesamten Primärschlüssel abhängig, nicht nur von einem Teil des Schlüssel. <br>
**3NF**: 2NF + es gibt keine Abhängigkeiten zwischen Nichtschlüsselattributen.

#### Beispiele:

In [None]:
Tabelle: lkwahl
snr    name             lk1            lk2           
-----------------------------------------------------
120    Malte Riedberg   M1 Schulte     Ph1 Schulte   
121    Lena Dreis       Bio1 Dallmeyer Ph1 Schulte   
122    Maike Rödding    M2 Adam        Ge2 Gebauer   

Schema: lkwahl(**snr**,name,lk1,lk2) - In die Tabelle wurde die Wahl der Leistungskurse eingetragen. Die Attribute sind nicht atomar und es kommen Wiederholfelder vor.

---



In [None]:
Tabelle: lkwahl
snr    name       vorname    kid    lehrer     kuerzel
------------------------------------------------------
120    Riedberg   Malte      M1     Schulte    SC  
120    Riedberg   Malte      Ph1    Schulte    SC  
121    Dreis      Lena       Bio1   Dallmeyer  DA  
121    Dreis      Lena       Ph1    Schulte    SC  
122    Rödding    Maike      M2     Adam       AD  
122    Rödding    Maike      Ge2    Gebauer    GE  

Schema:lkwahl(**snr**,name,vorname,**kid**,lehrer,kuerzel) - In der Tabelle ist das Attribut _name_ nur von einem Teil des Primärschlüssels abhängig, nämlich von _snr_. Das Attribut _kuerzel_ ist nur von dem Attribut _lehrer_ abhängig.

---

Schema: lkwahl(**_snr_**,**_kid_**) <br> 
schueler(**snr**,name,vorname) <br> 
kurse(**kid**,_kuerzel_) <br> 
lehrer(**kuerzel**,lehrer)

In [None]:
Tabelle: lkwahl
snr    kid    
--------------
120    M1     
120    Ph1    
121    Bio1   
121    Ph1    
122    M2     
122    Ge2    

Tabelle: schueler
snr    name       vorname    
-----------------------------
120    Riedberg   Malte      
121    Dreis      Lena       
122    Rödding    Maike      

Tabelle: kurse
kid    kuerzel 
---------------
M1     SC     
Ph1    SC     
Bio1   DA     
M2     AD     
Ge2    GE     

Tabelle: lehrer
kuerzel lehrer     
-------------------
SC      Schulte    
DA      Dallmeyer  
AD      Adam       
GE      Gebauer   

Die Datenbank ist in 3NF.