# Eine Einführung in Python und die Bibliothek Pandas
# Workshop April 2017

1. Jupyter Notebooks
2. Python
3. Pandas - Einführung
4. Matplotlib
5. Pandas - Merging

## 1. Was ist Jupyter Notebooks

The [Jupyter Notebook](http://jupyter.org/) is an open-source web application that allows you to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include: data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.

Code cells

In [None]:
print('hello world')

Text cells, markup [(Cheat Sheet)](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet)

# Hello World
## Hello World
### Hello World
#### Hello World
##### Hello World
Hello World

## 2. Was ist Python?

An interpreted language, Python has a design philosophy which emphasizes code readability (notably using whitespace indentation to delimit code blocks rather than curly braces or keywords), and a syntax which allows programmers to express concepts in fewer lines of code than possible in languages such as C++ or Java.

### Data types

Strings = Zeichenkette

In [None]:
'ich bin ein string'
'123&aZh//' # Auch das ist ein String. 

Integers = Ganzzahlen

In [None]:
3

Floats = Gleitkommazahlen, also Nummern mit Dezimalstellen

In [None]:
3.898798

### Variabeln 

In [None]:
var1 = 'Du'

In [None]:
var1

In [None]:
var2 = 'ich'

In [None]:
var2

In [None]:
var1 + var2

In [None]:
var1 + ' & ' + var2

## 3. Was ist Pandas?

Hintergrund: [Mehr dazu hier](http://pandas.pydata.org/). Im Grunde ist es all das, was Excel sein möchte. Nämlich eine Tabellen-Kalkulation, die wirklich Sinn macht.

Importieren wir Pandas, denn ganz alleine kann Python ziemlich wenig. 

In [None]:
import pandas as pd

Schauen wir uns kürzlich publizierte [Betreibungsstatistik](https://www.bfs.admin.ch/bfs/de/home/aktuell/neue-veroeffentlichungen.html) des Bundes an. 
- In welchem Kanton haben die Betreibungen prozentual am meisten zugenommen (1995 bis 2016)? 
- In welchem Kanton hat es am meisten Betreibungen pro Haushalt?

In [None]:
df = pd.read_excel('https://www.bfs.admin.ch/bfsstatic/dam/assets/2240938/master')

In [None]:
df.head()

Schneiden wir uns die Tabelle zurecht

In [None]:
df = pd.read_excel('https://www.bfs.admin.ch/bfsstatic/dam/assets/2240938/master', skiprows=5, skipfooter=8)

Schauen wir uns die ersten Zeilen an 

In [None]:
df.head(10)

Was sollen diese vielen NaN Zeilen. Das sind leere Zeilen. Die brauchen wir nicht. Löschen wir sie.

In [None]:
df.dropna().head()

In [None]:
df = df.dropna()

Lasst uns nun auch das "Total" entfernen, also die Zeile mit dem Index 2. 

In [None]:
df = df.drop([2])

In [None]:
df.head()

Machen wir die Kantone und Regionen zu unserem Index.

In [None]:
df.index = df['Unnamed: 0']

In [None]:
df.head()

Jetzt rufen wir nur eine Kolonne auf.

In [None]:
df[1995]

Kantone und Wirtschaftsräume zu vermischen, macht keinen Sinn. Löschen wir die Wirtschaftsräume. 

In [None]:
df = df.drop(['Nordwestschweiz', 'Genferseeregion', 'Espace Mittelland', 'Zentralschweiz'])

Offensichtlich nehmen die Betreibungen zu. Doch wie stark? Wir vergleichen das Jahr 1996 mit dem Jahr 2016. Dazu fügen wir zuerst eine Spalte mit der Differenz der Werte von 2016 und 1996 ein.

In [None]:
df['Differenz'] = df[2016] - df[1996]

Schauen wir uns das Resultat an

In [None]:
df['Differenz']

Diese Angabe ist nicht aussagekräftig, da die Gesamtanzahl der Betreibungen pro Kanton sehr unterschiedlich gross ist. Wir benötigen einen relativen Wert. Rechnen wir also den Prozentanteil der Steigerung zur jetzigen Anzahl Betreibungen aus.

In [None]:
df['Prozent'] = df['Differenz'] / df[2016] * 100

Sortieren wir die Angaben. 

In [None]:
df['Prozent'].sort_values(ascending=False)

Bauen wir damit eine neue Tabelle.

In [None]:
pd.DataFrame(df['Prozent'].sort_values(ascending=False))

## 4. Matplotlib

Importieren wir die neue Bibliothek. 

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')
%matplotlib inline

In [None]:
pd.DataFrame(df['Prozent'].sort_values(ascending=True)).plot()

Wow, das sieht hübsch aus -- macht aber keinen Sinn. Wir stellen die Daten etwas anders dar. 

In [None]:
pd.DataFrame(df['Prozent'].sort_values(ascending=True)).plot(kind='bar')

[Gallerie der vielen Darstellungsformen](http://matplotlib.org/gallery.html)

Wer diese Grafik studiert, kriegt einen schiefen Hals. Lasst uns noch eine andere Darstellung ausprobieren. 

In [None]:
pd.DataFrame(df['Prozent'].sort_values(ascending=True)).plot(kind='barh', figsize=(5,7))

Sehr hübsch. Setzen wir nun einen Titel.

In [None]:
fig, ax = plt.subplots(figsize =(7,5))
ax.set_title("Pronzentuelle Steigerung der Betreibungen nach Kanton, 2006 - 2016")
pd.DataFrame(df['Prozent'].sort_values(ascending=True)).plot(kind='barh', figsize=(5,7), ax=ax)

Doch was nützt eine hübsche Darstellung auf dem Bildschirm? Wir benötigen eine Datei, die wir ausdrucken oder bei Bedarf auch zur weiteren Bearbeitung weitergeben können. 

In [None]:
fig, ax = plt.subplots(figsize =(7,5))
ax.set_title("Pronzentuelle Steigerung der Betreibungen nach Kanton, 2006 - 2016")
pd.DataFrame(df['Prozent'].sort_values(ascending=True)).plot(kind='barh', figsize=(5,7), ax=ax)
plt.savefig('Steigerung.pdf', transparent=True, bbox_inches='tight')

## 5. Merging

Jetzt wollen wir verstehen, welcher Kanton pro Haushalt am meisten Betreibungen hat? Laden wir die Daten ins System, die wir zuvor aus einem [Datacube des BFS](https://www.pxweb.bfs.admin.ch) extrahiert haben (zu finden mit einer Suche nach "Privathaushalte nach institutionellen Gliederungen und Haushaltsgrösse").

In [None]:
df_haushalte = pd.read_csv('haushalt_2015.csv')

In [None]:
df_haushalte.head()
del df_haushalte['Unnamed: 2']
del df_haushalte['Unnamed: 3']

In [None]:
df_haushalte.head()

Jetzt verbinden wir sie

In [None]:
df

In [None]:
df_haushalte = df_haushalte.merge(df, left_on='Kanton', right_on='Unnamed: 0')

In [None]:
df_haushalte.head()

Rechnen wir aus, wieviele Betreibungen pro Haushalt.

In [None]:
df_haushalte['Betreibungen pro Haushalt'] = df_haushalte['2015'] / df_haushalte[2015]

In [None]:
df_haushalte[['Kanton', 'Betreibungen pro Haushalt']]

Sortieren wir sie.

In [None]:
df_haushalte[['Kanton', 'Betreibungen pro Haushalt']].sort_values(by='Betreibungen pro Haushalt', ascending=False)

Machen wir einen Plot. 

In [None]:
df_haushalte.index = df_haushalte['Kanton']

fig, ax = plt.subplots(figsize =(7,5))
ax.set_title("Anzahl Betreibungen pro Haushalt")
pd.DataFrame(df_haushalte['Betreibungen pro Haushalt'].sort_values(ascending=True)).plot(kind='barh', figsize=(5,7), ax=ax, legend=False)
plt.savefig('Betreibungen_pro_Haushalt.pdf', transparent=True, bbox_inches='tight')