# SQL Kurs Teil 2.0: Einführung Modellierung

In diesem Kurs verwenden wir eine relationale Datenbank. Diese beteht aus Tabellen (Entitäten) und Beziehungen (Relationen) zwischen den Tabellen. Diese Struktur wird auch Datenmodell oder -schema genannt. In einer Tabelle können mehrere Spalten (auch Felder oder Attribute genannt) vorkommen, welche einen Typ besitzen. Der Typ legt fest, welche Art von Daten in der Spalte abgelegt werden können. Dies können beispielsweise Zeichenfolgen (text, char, varchar), Zahlen (integer, float, real), Daten (date, datetime) oder auch nichts (null) sein.

Wenn wir einen Ausschnitt der Beispieldatenbank betrachten, sehen wir diese Struktur:

![](./resources/erd-simple.drawio.svg)

In diese Tabellen eingefügte Daten sind also untereinander verknüpft in dem der Primärschlüssel des zu verknüpfenden Datensatzes im Datensatz mit dem Fremdschlüssel eingefügt wird. Ein Fremdschlüssel ist also ein Wert, der als Primärschlüssel in einer (oder auch der gleichen) Tabelle vorkommt.

![](./resources/relationaldatabase.drawio.svg)


## Datentypen

Die Datentypen unterscheiden sich von Datenbank Management System (DBMS, wie Microsoft SQL Server, Sqlite, MariaDB, usw.) zur DBMS. In Sqlite existieren folgende Datentypen:
- **INTEGER**: Ganzzahl (Vorzeichenbehaftet, maximale Länge 8 Byte)
- **REAL**: Fliesskommazahl (maximale Länge 8 Byte, heisst in anderen DBMS auch _float_ oder _double_)
- **TEXT**: Zeichenkette (Unicode, heisst in anderen DBMS auch _varchar_ oder _char_)
- **BLOB**: Binäre Bitfolge (Daten werden exakt so gespeichet, wie sie der Datenbank übergeben werden)
- **NULL**: NULL-Wert, falls in einer Spalte kein Wert gespeichert werden soll (z.B. bei optionalen Spalten)


### Boolean

Booleans werden in Sqlite als _INTEGER_ mit den Werten _0_ (false) und _1_ (true) gespeichert.


### Datum

Im Gegensatz zu vielen anderen DBMS, existiert in Sqlite kein eigener Datentyp für Daten, wie _date_ oder _datetime_. Daten werden als _TEXT_ im Format ISO8601 (YYYY-MM-DD HH:MM:SS.SSS) oder als _INTEGER_ als Unix Timestamp (vergangene Sekunden seit dem 01.01.1970 00:00 UTC) gespeichert. Umwandlungen zwischen diesen Formaten erfolgt mit den [Datum- und Zeit-Funktionen von Sqlite](https://www.sqlite.org/lang_datefunc.html)

Weitere Informationen zu Datentypen in Sqlite: https://www.sqlite.org/datatype3.html


## Normalformen

Datenmodelle werden normalisiert, das bedeutet es werden möglichst alle Redundanzen (gleiche Werte an verschiedenen Orten) verhindert. Falls Redundanzen in der Datenbank vorkommen, besteht die Gefahrt, dass bei Änderung dieser Daten nicht alle Redundanzen berücksicht werden. Dadurch können Datenanomalien, also obsolete oder widersprüchliche Daten, auftreten. Ausserdem belegen Redundanzen normalerweise unnötigen Speicherplatz.


### 1. Normalform (1NF)

Ein Datenmodell befindet sich in der 1. Normalform, wenn sich in einer Spalte nicht mehr wie ein Wert befindet.

![](./resources/1nf.drawio.svg)


#### Praktischer Nutzen der 1NF

Durch die 1. Normalform wird erreicht, dass die Werte in den Spalten atomar sind. Dadurch wird das Filtern oder Sortieren der Daten erst ermöglicht. Im oben gezeigten Beispiel ist es bspw. fast nicht möglich nach Programmiersprachen zu sortieren.


### 2. Normalform (2NF)

Ein Datenmodell befindet sich in der 2. Normalform, wenn die 1. Normalform erfüllt ist und für jeden Primärschlüssel eindeutige Spaltenwerte vorhanden sind. Das bedeutet, dass sich in jeder Tabelle nur die Werte einer einzigen Entität enthalten.

![](./resources/2nf.drawio.svg)


#### Praktischer Nutzen der 2NF

Die 2. Normalform erzwingt "monothematische" Tabellen. Das bedeutet, jede Tabelle modelliert nur einen einzelnen Sachverhalt. Dadurch werden die Datenmodelle einfacher verständlich und die Gefahr von inkonsistenten Daten wird verringert.


### 3. Normalform (3NF)

Ein Datenmodell befindet sich in der 3. Normalform, wenn die 2. Normalform (somit auch 1NF) erfüllt ist und zwischen zwei Spalten keine transitive Abhängigkeit besteht. Das bedeutet, dass keine Spalte von einer anderen Spalte abhängig ist, ausser vom Primärschlüssel. Klassische Beispiele sind PLZ und Ort oder Bankclearingnummer und Bank, welche voneinander abhängig sind, wodurch immer nur die selben Kombinationen auftreten können.

![](./resources/3nf.drawio.svg)


#### Praktischer Nutzen der 3NF

Die 3. Normalform macht Anhängigkeiten innerhalb der Daten sichtbar. Ungültige Kombinationen von Daten sind einfacher zu finden und inkonsitente Daten werden weiter verringert.


### Weitere Normalformen

Es existieren noch die Boyce-Codd-, 4. und 5. Normalform. Diese sind jedoch in der Praxis weniger relevant, da normalerweise ein eindeutiger Primärschlüssel vergeben wird und auf zusammengesetzte Schlüssel verzichtet wird.
Datenmodelle in der 3. Normalform gelten in der Regel als "normalisiert".

Weitere Informationen:
- [Normalformen 1 bis 3](http://www.gitta.info/LogicModelin/de/html/unit_DataConsiten.html)  
- [Alle Normalformen](https://www.hdm-stuttgart.de/~riekert/lehre/db-kelz/chap4.htm)