**Web Scraping und Data Mining in Python**

# Datenpersistenz: Datenbanken und Datenformate

Jan Riebling, *Universität Wuppertal*

# Gängige Formate

## CSV

Allgemeines und weitverbreites Plaintext-Format.

* Einfach zu bearbeiten.
* Unabhängiger freier Standard.
* Speicherintensiv (Plaintext) und nur als flat-file Format geeignet.

Für eine ausführlichere Dokumentation siehe [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#csv-text-files).


## Excel

Binäres Format für Datentabellen.

* Kann aus Pandas heraus geschrieben (`.to_excel()`) und gelesen werden (`read_excel()`).
* Anschlussfähig an Kollegen und das Windowsverse.

Siehe die [Pandas-Dokumentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#excel-files).

# Datenbanken

## Allgemein

* Addressieren das Problem langfristiger Datenpersistenz.
* Müssen *Komplexität* und *Größe* gerecht werden.
* Speicherung von Datensätzen vs. bedarfsgerechter Abfragen.

# Hierarchische Datenbanken

## HDF5

Hochperformante C Bibliothek zur Speicherung und Verwaltung hierarchischer Daten (wie Verzeichnisbäume). Sie [Projektwebseite](https://www.hdfgroup.org/solutions/hdf5) für mehr Details und den entsprechenden Abschnitt der [Pandas-Dokumentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#hdf5-pytables) für mehr Information. 

In [7]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A' : range(1, 5),
                   'B' : pd.date_range('21/2/2018', periods=4),
                   'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
                   'D' : np.random.randn(4),
                   'F' : ['foo', 'bar', 'baz', 'bla']})

In [20]:
## Store initialisieren
store = pd.HDFStore("../Daten/store.h5")

print(store)

<class 'pandas.io.pytables.HDFStore'>
File path: ../Daten/store.h5



In [10]:
## Store füllen

store['Dataframe1'] = df

print(store.keys())

['/Dataframe1']


In [13]:
store.Dataframe1

Unnamed: 0,A,B,C,D,F
0,1,2018-02-21,1.0,-1.085529,foo
1,2,2018-02-22,1.0,1.340936,bar
2,3,2018-02-23,1.0,1.843174,baz
3,4,2018-02-24,1.0,-0.500672,bla


In [14]:
## Muss wieder geschlossen werden!
store.close()

In [21]:
with pd.HDFStore("../Daten/store.h5") as store:
    print(store.keys())

['/Dataframe1']


# Relationale Datenbanken

## Allgemein

Speicherung komplexer Datenbestände und Metadaten durch miteinander verbundene Datentabellen.

![Relationales Datenschema](../figures/RDM_backup.svg)

# SQL

## Structured Query Language

Industriestandard welcher die Formulierung von Abfragen in relationalen Datenbanken ermöglicht. Siehe [w3schools SQL tutorial](https://www.w3schools.com/sql/) für eine Einführung in die Sprache und Pandas [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#sql-queries) für den Umgang mit der Pandas SQL-API. Pandas Möglichkeiten zur Verwaltung von Datenbanken sind sehr begrenzt. Daher sollte auf spezialisierte Bibliotheken wie [`sqlalchemy`](https://docs.sqlalchemy.org/en/14/) oder [`sqlite3`](https://docs.python.org/3/library/sqlite3.html) zurückgegriffen werden.

## Verbindung zur Datenbank

Im Normalfall findet die Speicherung und Verwaltung der Daten auf einem Datenbank-Server statt. Die Verbindung zur Datenbank wird über eine URL hergestellt. Bsp.: `postgresql://scott:tiger@localhost:5432/mydatabase`.

Der Einfachheit halber wird hier eine lokale Sqlite-Datenbank in einer Datei verwendet.

In [27]:
import sqlite3

con = sqlite3.connect('../Daten/Example.db')

df.to_sql('ToyData', con)

con.commit()

In [30]:
pd.read_sql_query('SELECT a, f FROM toydata', con)

Unnamed: 0,A,F
0,1,foo
1,2,bar
2,3,baz
3,4,bla


In [32]:
students = pd.DataFrame({'MatrNr': [1, 2],
                         'Vorname': ['Thomas', 'Sabine'],
                         'Nachname': ['Müller', 'Musterfrau']})

attendance = pd.DataFrame({'MatrNr': [1, 2, 2],
                           'Seminar': [1, 1, 3]})

seminars = pd.DataFrame({'Seminar': [1, 2, 3],
                         'Title': ['Stuff 101', 'Introduction to things', 'Comp. studies of stuff and thngs'],
                         'Lecturer': [1, 1, 4011]})

students.to_sql('Students', con)
attendance.to_sql('Attendance', con)
seminars.to_sql('Seminars', con)

In [36]:
pd.read_sql('''SELECT nachname, students.matrnr, title 
               FROM students
                   LEFT JOIN attendance 
                       ON students.matrnr = attendance.matrnr
                   LEFT JOIN seminars 
                       ON attendance.seminar = seminars.seminar''', con)

Unnamed: 0,Nachname,MatrNr,Title
0,Müller,1,Stuff 101
1,Musterfrau,2,Stuff 101
2,Musterfrau,2,Comp. studies of stuff and thngs
