# Daten putzen

So kommen wir vom BFS-Cube zu einem sauberen Datenfile

**Quelle:**
- Wahlergebnisse beim BFS: Daten gibts beim BFS: https://www.pxweb.bfs.admin.ch/pxweb/de/px-x-1702020000_105/px-x-1702020000_105/px-x-1702020000_105.px



## Vorbereitung

Wir importieren ausnahmsweise etwas mehr Bibliotheken als sonst...

In [None]:
import pandas as pd

In [81]:
import numpy as np

## Daten laden

Das wird ein bisschen ein Marathon...

- Wir navigieren zuerst zum "Cube" des BFS: https://www.pxweb.bfs.admin.ch/pxweb/de/px-x-1702020000_105/px-x-1702020000_105/px-x-1702020000_105.px

**1. Versuch:** Wir laden die Daten mal in csv-Form runter. (sie liegen bereits im Ordner `dataprojects/wahlen/`)

In [2]:
path = 'px-x-1702020000_105.csv'

In [3]:
#df = pd.read_csv(path)

Schaffen wir das vielleicht mit dem Editor??

Probleme:
- Encoding
- Startet nicht auf Zeile 1
- Delimiter

Hilfe zur `read()`-Funktion: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Hilfe zum Encoding gibt's hier: - https://docs.python.org/3/library/codecs.html#standard-encodings

... aber welches Encoding?? Trick: Shell code nutzen mit `!`

In [4]:
!file -I {path}

px-x-1702020000_105.csv: text/plain; charset=iso-8859-1


In [5]:
df = pd.read_csv(path, delimiter=';', skiprows=2, encoding='latin_1')

In [6]:
df.head(5)

Unnamed: 0,Bezirk (>>) / Gemeinde (......),Jahr,Partei,Parteistärke in %
0,>> Bezirk Affoltern,2019,FDP,13.75
1,>> Bezirk Affoltern,2019,CVP,4.30
2,>> Bezirk Affoltern,2019,SP,14.38
3,>> Bezirk Affoltern,2019,SVP,30.86
4,>> Bezirk Affoltern,2019,LPS,...


Das ist hübsch... aber:
- die Gemeinden haben grässlichen Vorzeichen
- es fehlen die wichtigen Gemeindenummern!

**2. Versuch:** Wir probieren es mit Excel

In [83]:
path = 'px-x-1702020000_105.xlsx'

In [84]:
df = pd.read_excel(path)

In [85]:
df.head(10)

Unnamed: 0,Nationalratswahlen (Parteistimmen und Parteistärke seit 1971: Bezirke und Gemeinden),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,,,,,,,
1,,,,,,,Parteistärke in %
2,101.0,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
3,,,,,2.0,CVP,4.3
4,,,,,3.0,SP,14.38
5,,,,,4.0,SVP,30.86
6,,,,,5.0,LPS,...
7,,,,,6.0,LdU,...
8,,,,,7.0,EVP,4.45
9,,,,,8.0,CSP,...


... das sieht auch nicht gerade sehr erquickend aus!!

In [86]:
df = pd.read_excel(path, skiprows=2)

In [87]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Parteistärke in %
0,101.0,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,,,,,2.0,CVP,4.3
2,,,,,3.0,SP,14.38
3,,,,,4.0,SVP,30.86
4,,,,,5.0,LPS,...


- Wir müssen Spaltennamen erfinden...

In [88]:
columns = ['Gemeinde_ID', 'Gemeinde_Name', 'Jahr', 'Jahr2', 'Partei_ID', 'Partei_Name', 'Partei_Anteil']

In [89]:
df = pd.read_excel(path, skiprows=2, names=columns)

In [90]:
df.head(10)

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,101.0,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,,,,,2.0,CVP,4.3
2,,,,,3.0,SP,14.38
3,,,,,4.0,SVP,30.86
4,,,,,5.0,LPS,...
5,,,,,6.0,LdU,...
6,,,,,7.0,EVP,4.45
7,,,,,8.0,CSP,...
8,,,,,31.0,GLP,14.82
9,,,,,32.0,BDP,1.72


... aber was ist mit den vielen Nan's??

Wir müssen mehr Zeilen anzeigen...

In [91]:
df.head(100)

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,101.0,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,,,,,2.0,CVP,4.3
2,,,,,3.0,SP,14.38
3,,,,,4.0,SVP,30.86
4,,,,,5.0,LPS,...
5,,,,,6.0,LdU,...
6,,,,,7.0,EVP,4.45
7,,,,,8.0,CSP,...
8,,,,,31.0,GLP,14.82
9,,,,,32.0,BDP,1.72


Wir brauchen NOCH MEHR ZEILEN!

Wie geht das? https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.set_option.html

In [92]:
pd.set_option("display.max_rows", 100)

In [93]:
df.head(100)

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,101.0,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,,,,,2.0,CVP,4.3
2,,,,,3.0,SP,14.38
3,,,,,4.0,SVP,30.86
4,,,,,5.0,LPS,...
5,,,,,6.0,LdU,...
6,,,,,7.0,EVP,4.45
7,,,,,8.0,CSP,...
8,,,,,31.0,GLP,14.82
9,,,,,32.0,BDP,1.72


Wir müssen die fehlenden Felder füllen!

Pandas hat dafür eine SEHR PRAKTISCHE FUNKTION: `ffill()`

In [94]:
df = df.ffill()

In [95]:
df.head(100)

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,101,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,101,>> Bezirk Affoltern,2019.0,2019.0,2.0,CVP,4.3
2,101,>> Bezirk Affoltern,2019.0,2019.0,3.0,SP,14.38
3,101,>> Bezirk Affoltern,2019.0,2019.0,4.0,SVP,30.86
4,101,>> Bezirk Affoltern,2019.0,2019.0,5.0,LPS,...
5,101,>> Bezirk Affoltern,2019.0,2019.0,6.0,LdU,...
6,101,>> Bezirk Affoltern,2019.0,2019.0,7.0,EVP,4.45
7,101,>> Bezirk Affoltern,2019.0,2019.0,8.0,CSP,...
8,101,>> Bezirk Affoltern,2019.0,2019.0,31.0,GLP,14.82
9,101,>> Bezirk Affoltern,2019.0,2019.0,32.0,BDP,1.72


Kucken wir uns zur Sicherheit noch den Schluss an:

In [96]:
df.tail(100)

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
115567,6809,......Haute-Ajoie,1999.0,1999.0,8.0,CSP,...
115568,6809,......Haute-Ajoie,1999.0,1999.0,31.0,GLP,...
115569,6809,......Haute-Ajoie,1999.0,1999.0,32.0,BDP,...
115570,6809,......Haute-Ajoie,1999.0,1999.0,9.0,PdA,...
115571,6809,......Haute-Ajoie,1999.0,1999.0,10.0,PSA,...
115572,6809,......Haute-Ajoie,1999.0,1999.0,11.0,POCH,...
115573,6809,......Haute-Ajoie,1999.0,1999.0,13.0,GPS,...
115574,6809,......Haute-Ajoie,1999.0,1999.0,12.0,FGA,...
115575,6809,......Haute-Ajoie,1999.0,1999.0,27.0,Sol.,...
115576,6809,......Haute-Ajoie,1999.0,1999.0,14.0,Rep.,...


Oh oh... wir haben noch Abfall am Ende!

Wir können das mit einem einfachen Trick beseitigen:

In [97]:
df = df[0:115632]
df

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,000101,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,000101,>> Bezirk Affoltern,2019.0,2019.0,2.0,CVP,4.3
2,000101,>> Bezirk Affoltern,2019.0,2019.0,3.0,SP,14.38
3,000101,>> Bezirk Affoltern,2019.0,2019.0,4.0,SVP,30.86
4,000101,>> Bezirk Affoltern,2019.0,2019.0,5.0,LPS,...
...,...,...,...,...,...,...,...
115627,6810,......La Baroche,1999.0,1999.0,17.0,FPS,...
115628,6810,......La Baroche,1999.0,1999.0,18.0,Lega,...
115629,6810,......La Baroche,1999.0,1999.0,33.0,MCR,...
115630,6810,......La Baroche,1999.0,1999.0,26.0,Sep.,...


**Aber...**
... bevor wir jetzt endgültig mit der Analyse beginnen, müssen wir noch etwas investieren

## Daten reinigen

Wir müssen die drei Punkte ersetzen durch NaN

In [100]:
df['Partei_Anteil'] = df['Partei_Anteil'].replace('...', np.nan)

In [101]:
df

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Jahr2,Partei_ID,Partei_Name,Partei_Anteil
0,000101,>> Bezirk Affoltern,2019.0,2019.0,1.0,FDP,13.75
1,000101,>> Bezirk Affoltern,2019.0,2019.0,2.0,CVP,4.30
2,000101,>> Bezirk Affoltern,2019.0,2019.0,3.0,SP,14.38
3,000101,>> Bezirk Affoltern,2019.0,2019.0,4.0,SVP,30.86
4,000101,>> Bezirk Affoltern,2019.0,2019.0,5.0,LPS,
...,...,...,...,...,...,...,...
115627,6810,......La Baroche,1999.0,1999.0,17.0,FPS,
115628,6810,......La Baroche,1999.0,1999.0,18.0,Lega,
115629,6810,......La Baroche,1999.0,1999.0,33.0,MCR,
115630,6810,......La Baroche,1999.0,1999.0,26.0,Sep.,


- Wozu genau ist die zweite Jahresspalte da??? Weg damit.

In [102]:
df = df.drop(columns=['Jahr2'])
df

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Partei_ID,Partei_Name,Partei_Anteil
0,000101,>> Bezirk Affoltern,2019.0,1.0,FDP,13.75
1,000101,>> Bezirk Affoltern,2019.0,2.0,CVP,4.30
2,000101,>> Bezirk Affoltern,2019.0,3.0,SP,14.38
3,000101,>> Bezirk Affoltern,2019.0,4.0,SVP,30.86
4,000101,>> Bezirk Affoltern,2019.0,5.0,LPS,
...,...,...,...,...,...,...
115627,6810,......La Baroche,1999.0,17.0,FPS,
115628,6810,......La Baroche,1999.0,18.0,Lega,
115629,6810,......La Baroche,1999.0,33.0,MCR,
115630,6810,......La Baroche,1999.0,26.0,Sep.,


- Bezirke? Wollen wir nicht! (Der `.str[]`-Operator ist hierfür handy)

In [103]:
df['Gemeinde_Name'].str[0:2] == '>>'

0          True
1          True
2          True
3          True
4          True
          ...  
115627    False
115628    False
115629    False
115630    False
115631    False
Name: Gemeinde_Name, Length: 115632, dtype: bool

In [104]:
df = df.drop(index=df[df['Gemeinde_Name'].str[0:2] == '>>'].index)

In [105]:
df

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Partei_ID,Partei_Name,Partei_Anteil
48,0001,......Aeugst am Albis,2019.0,1.0,FDP,16.42
49,0001,......Aeugst am Albis,2019.0,2.0,CVP,2.50
50,0001,......Aeugst am Albis,2019.0,3.0,SP,11.57
51,0001,......Aeugst am Albis,2019.0,4.0,SVP,30.38
52,0001,......Aeugst am Albis,2019.0,5.0,LPS,
...,...,...,...,...,...,...
115627,6810,......La Baroche,1999.0,17.0,FPS,
115628,6810,......La Baroche,1999.0,18.0,Lega,
115629,6810,......La Baroche,1999.0,33.0,MCR,
115630,6810,......La Baroche,1999.0,26.0,Sep.,


- Die Punkte vor dem Gemeindenamen... können auch noch weg

In [106]:
df['Gemeinde_Name'] = df['Gemeinde_Name'].str.replace('......', '', regex=False)

In [107]:
df.head()

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Partei_ID,Partei_Name,Partei_Anteil
48,1,Aeugst am Albis,2019.0,1.0,FDP,16.42
49,1,Aeugst am Albis,2019.0,2.0,CVP,2.5
50,1,Aeugst am Albis,2019.0,3.0,SP,11.57
51,1,Aeugst am Albis,2019.0,4.0,SVP,30.38
52,1,Aeugst am Albis,2019.0,5.0,LPS,


- Die Gemeinde_ID, das Jahr und die Partei_ID sind integer

In [108]:
df['Gemeinde_ID'] = df['Gemeinde_ID'].astype(int)

In [109]:
df['Jahr'] = df['Jahr'].astype(int)

In [110]:
df['Partei_ID'] = df['Partei_ID'].astype(int)

In [111]:
df.head()

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Partei_ID,Partei_Name,Partei_Anteil
48,1,Aeugst am Albis,2019,1,FDP,16.42
49,1,Aeugst am Albis,2019,2,CVP,2.5
50,1,Aeugst am Albis,2019,3,SP,11.57
51,1,Aeugst am Albis,2019,4,SVP,30.38
52,1,Aeugst am Albis,2019,5,LPS,


In [112]:
df

Unnamed: 0,Gemeinde_ID,Gemeinde_Name,Jahr,Partei_ID,Partei_Name,Partei_Anteil
48,1,Aeugst am Albis,2019,1,FDP,16.42
49,1,Aeugst am Albis,2019,2,CVP,2.50
50,1,Aeugst am Albis,2019,3,SP,11.57
51,1,Aeugst am Albis,2019,4,SVP,30.38
52,1,Aeugst am Albis,2019,5,LPS,
...,...,...,...,...,...,...
115627,6810,La Baroche,1999,17,FPS,
115628,6810,La Baroche,1999,18,Lega,
115629,6810,La Baroche,1999,33,MCR,
115630,6810,La Baroche,1999,26,Sep.,


Jeeeetzt sind wir fertig und können mit der Analyse beginnen.

Wir exportieren das File.

## Struktur modifizieren

In [113]:
df2 = pd.pivot_table(df, index=['Gemeinde_ID', 'Gemeinde_Name', 'Partei_Name'], columns='Jahr', values='Partei_Anteil')

In [114]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Jahr,1999,2019
Gemeinde_ID,Gemeinde_Name,Partei_Name,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Aeugst am Albis,BDP,,1.26
1,Aeugst am Albis,CSP,0.09,
1,Aeugst am Albis,CVP,2.59,2.50
1,Aeugst am Albis,EDU,3.21,3.43
1,Aeugst am Albis,EVP,1.44,3.23
...,...,...,...,...
9250,GE-CH de l'étranger,SP,21.28,14.55
9250,GE-CH de l'étranger,SVP,5.41,13.49
9250,GE-CH de l'étranger,Übrige,3.04,1.33
9250,GE-CH de l'étranger,Sol.,7.58,6.58


In [115]:
df2 = df2.reset_index()

In [116]:
df2

Jahr,Gemeinde_ID,Gemeinde_Name,Partei_Name,1999,2019
0,1,Aeugst am Albis,BDP,,1.26
1,1,Aeugst am Albis,CSP,0.09,
2,1,Aeugst am Albis,CVP,2.59,2.50
3,1,Aeugst am Albis,EDU,3.21,3.43
4,1,Aeugst am Albis,EVP,1.44,3.23
...,...,...,...,...,...
26842,9250,GE-CH de l'étranger,SP,21.28,14.55
26843,9250,GE-CH de l'étranger,SVP,5.41,13.49
26844,9250,GE-CH de l'étranger,Übrige,3.04,1.33
26845,9250,GE-CH de l'étranger,Sol.,7.58,6.58


## Export

In [117]:
df2.to_csv("Wahlergebnisse 1999 und 2019 in Gemeinden.csv", index=False)