# Geodatenanalyse 2


## Termin 7 - Modul 1

## Datenbanken und *Structured Query Language* (SQL)

Ca. 20-30 Minuten

## Inhalt

- Was ist eine Datenbank?
- Verwendung von Datenbanken
- *Structured Query Language* (*SQL*)
- SQLite in Python
- Übersicht über die Arten von Abfragen


## SQLite3 Installation

Für dieses Modul brauchen wir [SQLite3](https://anaconda.org/blaze/sqlite3). Zur Installation bitte:

1 - *Anaconda Prompt* öffnen und folgendes eingeben:

2 - ``conda activate geo`` ENTER

3 - ``conda install -c blaze sqlite3`` ENTER


In [1]:
import sqlite3

## Was ist eine Datenbank?

- Eine Datenbank enthält elektronisch gespeicherte Daten

- Diese können **strukturiert** und **unstrukturiert** sein

- Zugriff auf diese Daten erfolgt immer über ein Interface

### Beispiel Microsoft Excel

Eine *xlsx*-Datei enthält Daten und die Excel-Software erlaubt Zufriff und Manipulation

<img width=500 style="float: left;" src="images\database_excel.png">

### Wichtige Fragen ...

- Was passiert, wenn Daten zu groß werden?

- Was ist, wenn man mehrere Tabellen hat, welche zusammen gehören?

- Wie geht man mit mehrdimensionalen Daten um?

## Verwendung von Datenbanken

- Eine Datenbank ist ein elektronisches Speicher- und Verwaltungssystem für strukturierte Daten

- Durch den Einsatz von *Structured Query Language* (SQL) wird eine Unabhängigkeit der Anwendungen vom eingesetzten Datenbankmanagementsystem erzielt

- SQL ist eine Sprache zur Manipulation (Abruf, Veränderung, Hinzufügung, etc.) von Daten aus einer Datenbank

### Beispiel Software Schnittstelle

Eine Binärdatei enthält Daten und eine Software fungiert als Schnittstelle für Zufriff und Manipulation

<img width=500 style="float: left;" src="images\database_sql.png">

### Relationale Datenbank

"*Eine relationale Datenbank ist eine digitale Datenbank, die zur elektronischen Datenverwaltung in Computersystemen dient und auf einem tabellenbasierten relationalen Datenbankmodell beruht. Grundlage des Konzeptes relationaler Datenbanken ist die Relation.*"

Quelle: [Wikipedia](https://de.wikipedia.org/wiki/Relationale_Datenbank)

### Wozu braucht man das?

Für die Speicherung von **diversen Daten**, welche eine **Beziehung zeinander** haben

<img width=500 style="float: left;" src="images\relational_database.png">

## *Structured Query Language* (SQL)


Die SQL-Sprache gliedert sich in mehrere Sprachelemente:

- **Klauseln**, die konstituierende Bestandteile von Anweisungen und Abfragen sind

- **Ausdrücke**, die entweder skalare Werte oder Tabellen, die aus Spalten und Zeilen von Daten bestehen, erzeugen können

- **Prädikate**, die Bedingungen spezifizieren, die nach der dreiwertigen Logik (3VL) von SQL (wahr/falsch/unbekannt) oder booleschen Wahrheitswerten ausgewertet werden können, und die verwendet werden, um die Auswirkungen von Anweisungen und Abfragen zu begrenzen oder den Programmablauf zu ändern

- **Abfragen**, die die Daten anhand bestimmter Kriterien abrufen. Anweisungen, die eine dauerhafte Auswirkung auf Schemata und Daten haben oder Transaktionen, den Programmablauf, Verbindungen, Sitzungen oder Diagnosen steuern.

Quelle: [Wikipedia](https://en.wikipedia.org/wiki/SQL_syntax)


<img width=500 style="float: left;" src="images\sql_overview.svg">

## SQLite in Python

Als Beispiel verwenden wir eine [Lehrdatenbank aus der Ökologie](https://github.com/weecology/portal-teachingdb)

In [2]:
# Erstelle eine SQL Verbindung zur SQLite Datenbank her
con = sqlite3.connect("data/portal_mammals.sqlite")
cur = con.cursor()

### Übersicht über *SELECT* Abfragen

<img width=300 style="float: left;" src="images\sqlite_select.png">

#### Welche Tabellen gibt es?

Es gibt immer einen Phantom-Eintrag **sqlite_master**, welcher eine Liste der Tabellen enthält.

Eine Liste aller existierender Tabellen in der Datenbank:

In [3]:
for row in cur.execute("SELECT name FROM sqlite_master WHERE type='table';"):
    print(row)

('surveys',)
('species',)
('plots',)


Eine detaillierte Übersicht übder die Tabellenstruktur von *species*:

In [4]:
for row in cur.execute("PRAGMA TABLE_INFO(species);"):
    print(row)

(0, 'species_id', 'TEXT', 0, None, 0)
(1, 'genus', 'TEXT', 0, None, 0)
(2, 'species', 'TEXT', 0, None, 0)
(3, 'taxa', 'TEXT', 0, None, 0)


#### Was steht in der Tabelle *species*?

Frage alle Informationen ab:

In [5]:
# The result of a "cursor.execute" can be iterated over by row
for row in cur.execute('SELECT * FROM species;'):
    print(row)

('AB', 'Amphispiza', 'bilineata', 'Bird')
('AH', 'Ammospermophilus', 'harrisi', 'Rodent')
('AS', 'Ammodramus', 'savannarum', 'Bird')
('BA', 'Baiomys', 'taylori', 'Rodent')
('CB', 'Campylorhynchus', 'brunneicapillus', 'Bird')
('CM', 'Calamospiza', 'melanocorys', 'Bird')
('CQ', 'Callipepla', 'squamata', 'Bird')
('CS', 'Crotalus', 'scutalatus', 'Reptile')
('CT', 'Cnemidophorus', 'tigris', 'Reptile')
('CU', 'Cnemidophorus', 'uniparens', 'Reptile')
('CV', 'Crotalus', 'viridis', 'Reptile')
('DM', 'Dipodomys', 'merriami', 'Rodent')
('DO', 'Dipodomys', 'ordii', 'Rodent')
('DS', 'Dipodomys', 'spectabilis', 'Rodent')
('DX', 'Dipodomys', 'sp.', 'Rodent')
('EO', 'Eumeces', 'obsoletus', 'Reptile')
('GS', 'Gambelia', 'silus', 'Reptile')
('NL', 'Neotoma', 'albigula', 'Rodent')
('NX', 'Neotoma', 'sp.', 'Rodent')
('OL', 'Onychomys', 'leucogaster', 'Rodent')
('OT', 'Onychomys', 'torridus', 'Rodent')
('OX', 'Onychomys', 'sp.', 'Rodent')
('PB', 'Chaetodipus', 'baileyi', 'Rodent')
('PC', 'Pipilo', 'chlorur

Frage selektiv Informationen ab:

In [6]:
# The result of a "cursor.execute" can be iterated over by row
for row in cur.execute('SELECT * FROM species WHERE taxa="Bird" LIMIT 5;'):
    print(row)

('AB', 'Amphispiza', 'bilineata', 'Bird')
('AS', 'Ammodramus', 'savannarum', 'Bird')
('CB', 'Campylorhynchus', 'brunneicapillus', 'Bird')
('CM', 'Calamospiza', 'melanocorys', 'Bird')
('CQ', 'Callipepla', 'squamata', 'Bird')


### Übersicht über INSERT Abfragen

<img width=400 style="float: left;" src="images\sqlite_insert.png">

Daten hinzufügen:

In [7]:
cur.execute('INSERT INTO species (genus, species, taxa) VALUES("Crocodile", "sp.", "Reptile");')

<sqlite3.Cursor at 0x1a5ffcc0f80>

In [8]:
# The result of a "cursor.execute" can be iterated over by row
for row in cur.execute('SELECT * FROM species WHERE taxa="Reptile";'):
    print(row)

('CS', 'Crotalus', 'scutalatus', 'Reptile')
('CT', 'Cnemidophorus', 'tigris', 'Reptile')
('CU', 'Cnemidophorus', 'uniparens', 'Reptile')
('CV', 'Crotalus', 'viridis', 'Reptile')
('EO', 'Eumeces', 'obsoletus', 'Reptile')
('GS', 'Gambelia', 'silus', 'Reptile')
('SC', 'Sceloporus', 'clarki', 'Reptile')
('SU', 'Sceloporus', 'undulatus', 'Reptile')
('UL', 'Lizard', 'sp.', 'Reptile')
(None, 'Crocodile', 'sp.', 'Reptile')


### Übersicht über UPDATE Abfragen

<img width=400 style="float: left;" src="images\sqlite_update.png">

In [9]:
cur.execute('UPDATE species SET species_id="UL" WHERE taxa="Reptile";')

<sqlite3.Cursor at 0x1a5ffcc0f80>

In [10]:
# The result of a "cursor.execute" can be iterated over by row
for row in cur.execute('SELECT * FROM species WHERE taxa="Reptile";'):
    print(row)

('UL', 'Crotalus', 'scutalatus', 'Reptile')
('UL', 'Cnemidophorus', 'tigris', 'Reptile')
('UL', 'Cnemidophorus', 'uniparens', 'Reptile')
('UL', 'Crotalus', 'viridis', 'Reptile')
('UL', 'Eumeces', 'obsoletus', 'Reptile')
('UL', 'Gambelia', 'silus', 'Reptile')
('UL', 'Sceloporus', 'clarki', 'Reptile')
('UL', 'Sceloporus', 'undulatus', 'Reptile')
('UL', 'Lizard', 'sp.', 'Reptile')
('UL', 'Crocodile', 'sp.', 'Reptile')


### Übersicht über DELETE Abfragen

<img width=400 style="float: left;" src="images\sqlite_delete.png">

In [11]:
cur.execute('DELETE FROM species WHERE genus="Crocodile";')

<sqlite3.Cursor at 0x1a5ffcc0f80>

In [12]:
# The result of a "cursor.execute" can be iterated over by row
for row in cur.execute('SELECT * FROM species WHERE taxa="Reptile";'):
    print(row)

('UL', 'Crotalus', 'scutalatus', 'Reptile')
('UL', 'Cnemidophorus', 'tigris', 'Reptile')
('UL', 'Cnemidophorus', 'uniparens', 'Reptile')
('UL', 'Crotalus', 'viridis', 'Reptile')
('UL', 'Eumeces', 'obsoletus', 'Reptile')
('UL', 'Gambelia', 'silus', 'Reptile')
('UL', 'Sceloporus', 'clarki', 'Reptile')
('UL', 'Sceloporus', 'undulatus', 'Reptile')
('UL', 'Lizard', 'sp.', 'Reptile')


### Übersicht über CREATE TABLE Abfragen

<img width=500 style="float: left;" src="images\sqlite_create_table.png">

**WICHTIG**: Ein PRIMARY KEY ist immer sinnvol, denn er erstellt automatisch eine eindeutige Nummer für jeden Eintrag. Damit wird eine Verwechslung von Einträgen verhindert.

In [13]:
cur.execute('CREATE TABLE occurrence \
            (oc_id INTEGER PRIMARY KEY, \
            continent TEXT);')

<sqlite3.Cursor at 0x1a5ffcc0f80>

In [14]:
for row in cur.execute("SELECT name FROM sqlite_master WHERE type='table';"):
    print(row)

('surveys',)
('species',)
('plots',)
('occurrence',)


## Weitere Abfragen

- Die gegebenen Beispiele waren nur ein kleiner Teil der möglichen Abfragen an eine Datenbank

- Weitere Beispiele könnt ihr z.B. über [SQLITE Tutorial](https://www.sqlitetutorial.net/) anschauen und lernen

Der Vollständigkeit halber löschen wir die vorher erstellte Tabelle wieder:

In [15]:
for row in cur.execute("DROP TABLE occurrence;"):
    print(row)

## Verwendung von Funktionen

SQL hat viele praktische Funktionen eingebaut:

- Mit ``MIN()`` oder ``MAX()`` fragt man Extremwerte ab

- Mit ``COUNT()``, ``SUM()`` oder ``AVG()`` kann man die Ergebnisse direkt auswerten

## Verbindung beenden

- Eine Verbindung muss immer beendet werden! 

- Damit werden alle Abfragen permanent gespeichert

## SQL Cheat Sheet

**Achtung**: SQLite hat limitierte Funktionalität!

Quelle: [SQL Tutorials](https://www.sqltutorial.org/sql-cheat-sheet/)

<img width=500 style="float: left;" src="images\SQL_cheat-sheet.png">

In [16]:
con.close()

## ENDE