# Datenanalyse, Transformation und Visualisierung

In diesem Tutorial werden anhand eines Beispiels Daten aus einer CSV-Datei unter der Zurhilfenahme von Pandas eingelesen und analysiert. Sie werden in ein handhabbares Format transferiert um sie schliesslich graphisch darzustellen. 

### Importieren der verwendeten Bibliotheken
Es werden die Bibliotheken `pandas` ([link](https://pandas.pydata.org/)) und `matplotlib` ([link](https://matplotlib.org/)) verwendet. Diese müssen zunächst importiert werden.

In [None]:
import pandas
import matplotlib.pyplot as plt

### Einlesen der Quelldatei
Die Datendatei `bil100od1002.csv` liegt im csv-Format vor und liegt im Unterordner `data`  
(Quelle: https://data.stadt-zuerich.ch/dataset/bfs_bev_bildungsstand_seit1970_od1002). Das Resultat des Ladevorgangs ([pandas.read_csv(filepath)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)) wird in der Variable [`dataframe`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) zwischengeladen.

In [None]:
dataframe = pandas.read_csv('data/bil100od1002.csv')

### Anzeigen der eingelesenen Daten

Mit dem Befehl [`display(dataframe)`](https://ipython.readthedocs.io/en/stable/api/generated/IPython.display.html) lassen sich die eingelesenen Daten anzeigen, die sich in der Variable `dataframe` liegen. Die Methode [`info()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html) gibt uns Metadaten zum Dataframe wieder.

In [None]:
display(dataframe)
dataframe.info()

### Exploration und Selektion von Datensätzen

Nach Analyse der Daten lässt sich feststellen, dass die Daten pro Kategorie und Jahr jeweils in Zeilen abgelegt sind. Für eine Kurve sind jedoch nur die Daten einer bestimmten Kategorie (Bildungsstand) relevant. Daher müssen die Daten in [Serien](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) überführt werden. Zur Überprüfung werden sie sodann ausgegeben.

In [None]:
obl = dataframe.query('Bildungsstand == "Obligatorische Schule"')
sek = dataframe.query('Bildungsstand == "Sekundarstufe II"')
ter = dataframe.query('Bildungsstand == "Tertiärstufe"')
serie_obl = pandas.Series(obl['AntBev'].values, index=obl['Jahr'], name="Obligatorische Schule")
serie_sek = pandas.Series(sek['AntBev'].values, index=sek['Jahr'], name="Sekundarstufe II")
serie_ter = pandas.Series(ter['AntBev'].values, index=ter['Jahr'], name="Tertiärstufe")

In [None]:
serie_obl

In [None]:
serie_sek

In [None]:
serie_ter

### Erste Kurven

Die erstellten Serien lassen sich via [`plot`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.plot.html) nun in einem Diagramm darstellen.

In [None]:
plt = serie_sek.plot()
serie_obl.plot(ax=plt)
serie_ter.plot(ax=plt)

### Transformation von Daten

In [None]:
merged_dataframe = pandas.merge(serie_obl, serie_sek, left_index=True, right_index=True).merge(serie_ter, left_index=True, right_index=True)
merged_dataframe

### Ausgabe des Flächendiagramms

In [None]:
ax = merged_dataframe.plot.area()