# Verkehrsunfälle in Berner Gemeinden nach Einwohnerzahl

### In diesem Projekt geht es darum, die Anzahl Verkehrsunfälle in den Gemeinden und deren Ausmass mit der Einwohnerzahl gleich zu setzen. Eine Möglichkeit wäre, später auch noch den Vergleich einzubauen mit den vergangenen Jahren. 

#### Als erstes importiere ich die Werkzeuge, die ich benötige

In [2]:
import camelot
import tabula
import pandas as pd

## Schritt 1: Das PDF mit den Unfällen

#### Ich hole das PDF von der Website https://www.police.be.ch/police/de/index/ueber-uns/kantonspolizei/statistik/Verkehrsstatistik.assetref/dam/documents/POM/Police/de/Statistik/Bericht_110%20ohne%20AB_AS%20Gemeinden-Stand%202018%20%28D%29.pdf und speichere es auf meinem Notebook ab.


Das Teil ist jetzt als PDF gespeichert im gleichen Ordner wie dieses Notebook. Ich sollte also relativ easy darauf zugreifen können.

### 1. File erfassen

#### Ich lese das File

In [3]:
tables = camelot.read_pdf('Verkehrsunfälle2018.pdf', flavor='stream', pages = "1")
tables

<TableList n=1>

In [4]:
tables[0].df

Unnamed: 0,0,1,2,3,4,5,6,7
0,nach Unfallfolgen und Gemeinde,,,,,,,
1,,,,,,davon,,
2,,,Unfälle mit,,,lebens-,,
3,,Unfälle mit,Personen-,,Schwer-,bedrohlich,erheblich,
4,,Sach-schaden,schaden,Getötete,verletzte,Verletzte¹,Verletzte¹,Leicht-verletzte
5,Total,2 489,2 397,34,506,30,476,2 344
6,Aarberg,26,12,0,2,0,2,15
7,Aarwangen,10,15,0,2,0,2,14
8,Adelboden,8,11,1,3,0,3,9
9,Aefligen,0,0,0,0,0,0,0


Mit diesem Code hier sage ich, dass ich die ganze Seite lesen möchte, nicht nur bis Aefligen:

In [5]:
tables_stream = camelot.read_pdf("Verkehrsunfälle2018.pdf", flavor='stream', pages='all', table_areas=['0,842,595,0'])
tables_stream

<TableList n=8>

In [6]:
tables_stream[0].df

Unnamed: 0,0,1,2,3,4,5,6,7
0,,"Übersicht: Gemeinde ohne Autobahn, Autostrasse",,,,,,
1,2018,,,,,,,
2,Unfälle und Verunfallte,,,,,,,
3,nach Unfallfolgen und Gemeinde,,,,,,,
4,,,,,,davon,,
5,,,Unfälle mit,,,lebens-,,
6,,Unfälle mit,Personen-,,Schwer-,bedrohlich,erheblich,
7,,Sach-schaden,schaden,Getötete,verletzte,Verletzte¹,Verletzte¹,Leicht-verletzte
8,Total,2 489,2 397,34,506,30,476,2 344
9,Aarberg,26,12,0,2,0,2,15


### 2. Daten reinigen

Ich schaue mir das File mal an. Zum Beispiel die dritte vierte Seite

In [7]:
test_df = tables_stream[4].df
test_df

Unnamed: 0,0,1,2,3,4,5,6,7
0,,"Übersicht: Gemeinde ohne Autobahn, Autostrasse",,,,,,
1,2018,,,,,,,
2,Unfälle und Verunfallte,,,,,,,
3,nach Unfallfolgen und Gemeinde,,,,,,,
4,,,,,,davon,,
5,,,Unfälle mit,,,lebens-,,
6,,Unfälle mit,Personen-,,Schwer-,bedrohlich,erheblich,
7,,Sach-schaden,schaden,Getötete,verletzte,Verletzte¹,Verletzte¹,Leicht-verletzte
8,Total,2 489,2 397,34,506,30,476,2 344
9,Oberbalm,3,1,1,0,0,0,0


#### Ich stelle fest: Ab der 8. Zeile steht erst das, was mich interessiert. Also schneide ich die ersten acht Zeilen ab bzw nehme nur jene ab der 9. Zeile und nenne sie "verkehrsdaten":

In [8]:
verkehrsdaten = test_df[9:]
verkehrsdaten.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7
9,Oberbalm,3,1,1,0,0,0,0
10,Oberbipp,3,2,0,0,0,0,2
11,Oberburg,10,9,0,2,0,2,11
12,Oberdiessbach,11,11,0,4,0,4,15
13,Oberhofen am Thunersee,7,6,0,1,0,1,6


#### Jetzt sind mir die Header raus gefallen. So definiere ich sie wieder:

In [9]:
headers = ['Gemeinde', 'Sachschaden', 'Personenschaden', 'Getötete', 
           'Schwerverletzte', 'Lebensbedrohlich Verletzte', 
           'Erheblich Verletzte', 'Leichtverletzte']

In [10]:
verkehrsdaten.columns = headers

In [11]:
verkehrsdaten.head(9)

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
9,Oberbalm,3,1,1,0,0,0,0
10,Oberbipp,3,2,0,0,0,0,2
11,Oberburg,10,9,0,2,0,2,11
12,Oberdiessbach,11,11,0,4,0,4,15
13,Oberhofen am Thunersee,7,6,0,1,0,1,6
14,Oberhünigen,0,0,0,0,0,0,0
15,Oberlangenegg,0,2,0,0,0,0,3
16,Oberried am Brienzersee,1,2,0,2,0,2,0
17,Obersteckholz,1,0,0,0,0,0,0


#### Jetzt mache ich einen for-Loop, damit ich das nicht für jede einzelne Seite machen muss

In [12]:
ff = pd.DataFrame() #=meine leere df

headers = ['Gemeinde', 'Sachschaden', 'Personenschaden', 'Getötete', 
           'Schwerverletzte', 'Lebensbedrohlich Verletzte', 
           'Erheblich Verletzte', 'Leichtverletzte'] #=meine Headers

#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for number in range(0,8):
    temporary = tables_stream[number].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporary = temporary[9:] #hier sagen wir: aber im fall erst ab der 9. reihe
    temporary.columns = headers #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frames = [ff, temporary]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ff = pd.concat(frames)   #mit concat kommts dann in die richtige form

In [13]:
ff.head(10)

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
9,Aarberg,26,12,0,2,0,2,15
10,Aarwangen,10,15,0,2,0,2,14
11,Adelboden,8,11,1,3,0,3,9
12,Aefligen,0,0,0,0,0,0,0
13,Aegerten,3,3,0,0,0,0,4
14,Aeschi bei Spiez,9,6,0,2,0,2,5
15,Affoltern im Emmental,3,4,0,0,0,0,4
16,Alchenstorf,1,1,0,0,0,0,2
17,Allmendingen,5,3,0,2,0,2,1
18,Amsoldingen,2,0,0,0,0,0,0


In [14]:
ff.tail(10)

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
46,Wynau,2.0,4.0,0.0,0.0,0.0,0.0,4.0
47,Wynigen,6.0,10.0,0.0,2.0,1.0,1.0,9.0
48,Wyssachen,0.0,2.0,1.0,1.0,0.0,1.0,0.0
49,Zäziwil,2.0,1.0,0.0,0.0,0.0,0.0,1.0
50,Zielebach,1.0,0.0,0.0,0.0,0.0,0.0,0.0
51,Zollikofen,21.0,15.0,1.0,4.0,0.0,4.0,10.0
52,Zuzwil (BE),0.0,0.0,0.0,0.0,0.0,0.0,0.0
53,Zweisimmen,6.0,5.0,1.0,1.0,1.0,0.0,4.0
54,Zwieselberg,1.0,1.0,0.0,1.0,0.0,1.0,0.0
55,¹ Zahlen für lebensbedrohlich Verletzte und er...,,,,,,,


#### Ich schaue mal nach, das es alles für Objekte in diesemm Dataframe hat

In [15]:
ff.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 347 entries, 9 to 55
Data columns (total 8 columns):
Gemeinde                      347 non-null object
Sachschaden                   347 non-null object
Personenschaden               347 non-null object
Getötete                      347 non-null object
Schwerverletzte               347 non-null object
Lebensbedrohlich Verletzte    347 non-null object
Erheblich Verletzte           347 non-null object
Leichtverletzte               347 non-null object
dtypes: object(8)
memory usage: 24.4+ KB


#### Zur Sicherheit putze ich mal die leeren Strings raus

In [16]:
def clean(elem):
    if elem == "": #wenn das element ein leerer string ist, gibt mir 0 zurück
        return 0
    else:
        return elem #sonst gib mir das element zurück
    
ff = ff.applymap(clean) #apply kann man für einzelne kolonnen machen, applymap ist für das gesagte frame. das was in klammern kommt, machen wir

In [17]:
ff

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
9,Aarberg,26,12,0,2,0,2,15
10,Aarwangen,10,15,0,2,0,2,14
11,Adelboden,8,11,1,3,0,3,9
12,Aefligen,0,0,0,0,0,0,0
13,Aegerten,3,3,0,0,0,0,4
14,Aeschi bei Spiez,9,6,0,2,0,2,5
15,Affoltern im Emmental,3,4,0,0,0,0,4
16,Alchenstorf,1,1,0,0,0,0,2
17,Allmendingen,5,3,0,2,0,2,1
18,Amsoldingen,2,0,0,0,0,0,0


#### Nun verwandle ich all die Objekte in Integers, damit ich damit arbeiten kann

In [18]:
## Die Gemeinden zwischenzeitlich löschen und dann wieder reinnehmen bei der Umwandlung in Zahlen
gem = ff['Gemeinde'] 
del ff['Gemeinde'] #damit schneide ich die Kolonne "Gmeinde" ab

#für das noch überbleibende Dataframe wandle ich alle Strings in Integer
ff = ff.astype(int)

#und setze die Gemeinde-Kolonne wieder rein.
ff['Gemeinde'] = gem

#und definiere auch gleich die Reihenfolge der Headers, was hier aber nur Kosmetik ist
ff = ff[['Gemeinde', 'Sachschaden', 'Personenschaden', 'Getötete', 
           'Schwerverletzte', 'Lebensbedrohlich Verletzte', 
           'Erheblich Verletzte', 'Leichtverletzte']].copy()

In [19]:
ff.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 347 entries, 9 to 55
Data columns (total 8 columns):
Gemeinde                      347 non-null object
Sachschaden                   347 non-null int32
Personenschaden               347 non-null int32
Getötete                      347 non-null int32
Schwerverletzte               347 non-null int32
Lebensbedrohlich Verletzte    347 non-null int32
Erheblich Verletzte           347 non-null int32
Leichtverletzte               347 non-null int32
dtypes: int32(7), object(1)
memory usage: 14.9+ KB


Wie ich hier sehe, sind nun alle Inhalte ausser die Gemeinden Integers.

In [20]:
ff.head(8)

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
9,Aarberg,26,12,0,2,0,2,15
10,Aarwangen,10,15,0,2,0,2,14
11,Adelboden,8,11,1,3,0,3,9
12,Aefligen,0,0,0,0,0,0,0
13,Aegerten,3,3,0,0,0,0,4
14,Aeschi bei Spiez,9,6,0,2,0,2,5
15,Affoltern im Emmental,3,4,0,0,0,0,4
16,Alchenstorf,1,1,0,0,0,0,2


#### Jetzt stört mich, dass die Tabelle erst bei 9 beginnt. Ich passe deshalb den Index an, damit das bei 0 beginnt

In [21]:
ff = ff.reset_index() #so läuft das von 1 an durch dann, nicht erst ab 9
del ff['index'] #und so lösche ich dann die index-kolonne, die index heisst und nun nicht mehr nötig ist

In [22]:
ff

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
0,Aarberg,26,12,0,2,0,2,15
1,Aarwangen,10,15,0,2,0,2,14
2,Adelboden,8,11,1,3,0,3,9
3,Aefligen,0,0,0,0,0,0,0
4,Aegerten,3,3,0,0,0,0,4
5,Aeschi bei Spiez,9,6,0,2,0,2,5
6,Affoltern im Emmental,3,4,0,0,0,0,4
7,Alchenstorf,1,1,0,0,0,0,2
8,Allmendingen,5,3,0,2,0,2,1
9,Amsoldingen,2,0,0,0,0,0,0


#### Die letzte Zeile ist eine Fussnote, die keine Gemeinde mehr ist. Ich lösche sie. 
ACHTUNG der code ff.drop(ff.tail(1).index,inplace=True) hat seine Tücken. Wenn ich ihn anwende, schneidet es jedes Mal die letzte Zeile ab, wenn ich ihn ausführe. Und zwar aufs gesamte Dokument. Ich schaue mal, was passiert, wenn ich das inplace true weglasse. 
Es passiert nichts. Ich versuche einen anderen Code, nämlich: DF = DF[:-1]
Bei dem ist das problem genau dasselbe. ich lasse es bleiben, wie es ist. Und frage Simon/Barnaby, was das soll.

In [23]:
dfunfälle=ff[:-1]
dfunfälle

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Lebensbedrohlich Verletzte,Erheblich Verletzte,Leichtverletzte
0,Aarberg,26,12,0,2,0,2,15
1,Aarwangen,10,15,0,2,0,2,14
2,Adelboden,8,11,1,3,0,3,9
3,Aefligen,0,0,0,0,0,0,0
4,Aegerten,3,3,0,0,0,0,4
5,Aeschi bei Spiez,9,6,0,2,0,2,5
6,Affoltern im Emmental,3,4,0,0,0,0,4
7,Alchenstorf,1,1,0,0,0,0,2
8,Allmendingen,5,3,0,2,0,2,1
9,Amsoldingen,2,0,0,0,0,0,0


#### Ich lösche nun alle Kolonnen, die ich nicht brauche

In [24]:
del dfunfälle['Lebensbedrohlich Verletzte']
del dfunfälle['Erheblich Verletzte']
dfunfälle.head(5)
#hier gibts mir eine Fehlermeldung, weil ich den Befehl schon vorher ausgeführt hatte und die Kolonnen damit rückwirkend entfernte

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Leichtverletzte
0,Aarberg,26,12,0,2,15
1,Aarwangen,10,15,0,2,14
2,Adelboden,8,11,1,3,9
3,Aefligen,0,0,0,0,0
4,Aegerten,3,3,0,0,4


In [25]:
dfunfälle #hauptsache, das hier ist gut.

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Leichtverletzte
0,Aarberg,26,12,0,2,15
1,Aarwangen,10,15,0,2,14
2,Adelboden,8,11,1,3,9
3,Aefligen,0,0,0,0,0
4,Aegerten,3,3,0,0,4
5,Aeschi bei Spiez,9,6,0,2,5
6,Affoltern im Emmental,3,4,0,0,4
7,Alchenstorf,1,1,0,0,2
8,Allmendingen,5,3,0,2,1
9,Amsoldingen,2,0,0,0,0


## Schritt 2: Das PDF mit der Einwohnerzahl

### 1. File erfassen

Auch dieses File speichere ich als PDF in meinem Projektordner ab. Es heisst EinwohnerzahlenKantonBern.pdf.
Die URL lautet: https://www.jgk.be.ch/jgk/de/index/gemeinden/gemeinden/gemeindedaten.assetref/dam/documents/JGK/AGR/de/Gemeinden/Gemeindedaten/agr_gemeinden_gemeindedaten_einwohnerzahlen_de.pdf

In [60]:
einwohnerzahlen = camelot.read_pdf('EinwohnerzahlenKantonBern.pdf', flavor='stream', pages='all', table_areas=['0,842,595,0'])
einwohnerzahlen

<TableList n=4>

In [61]:
einwohnerzahlen[0].df

Unnamed: 0,0,1,2,3,4,5
0,,,Adressen und Einwohnerzahlen der Einwohner- un...,,,
1,,,Adresses et nombre d'habitants des communes mu...,,,
2,,,,PLZ /,,Einwohner / \nBemerkungen /
3,BFS/(cid:10)OFS,Name / nom,Adresse / adresse,NPA,Ort / lieu,habitants\nRemarques
4,,301 Aarberg,Stadtplatz 46,3270,Aarberg,4'628
5,,321 Aarwangen,Langenthalstrasse 4,4912,Aarwangen,4'561
6,,561 Adelboden,Zelgstrasse 3,3715,Adelboden,3'390
7,,401 Aefligen,Fraubrunnenstrasse 3,3426,Aefligen,1'090
8,,731 Aegerten,Schulstrasse 3,2558,Aegerten,2'159
9,,562 Aeschi bei Spiez,,3703,Aeschi b. Spiez,2'217


Ich schau mir meine Datei etwas genauer an, die zweite, dritte und vierte Seite auch noch

In [126]:
test_einwohnerzahlen = einwohnerzahlen[2].df
test_einwohnerzahlen

Unnamed: 0,0,1,2,3,4,5,6
0,,,,Adressen und Einwohnerzahlen der Einwohner- un...,,,
1,,,Adresses et nombre d'habitants des communes mu...,,,,
2,,,,PLZ /,,Einwohner /,Bemerkungen /
3,BFS/(cid:10)OFS,Name / nom,Adresse / adresse,NPA,Ort / lieu,habitants,Remarques
4,,669 Münchenwiler,Grissachstrasse 30,1797,Münchenwiler,522,
5,,616 Münsingen,"Neue Bahnhofstrasse 4, Postfach 1330",3110,Münsingen,12'724,
6,,498 Müntschemier,Dorfplatz 2,3225,Müntschemier,1'406,
7,,356 Muri bei Bern,Thunstrasse 74,3074,Muri b.Bern,13'054,
8,,670 Neuenegg,Dorfstrasse 16,3176,Neuenegg,5'541,
9,,743 Nidau,"Schulgasse 2, Postfach 240",2560,Nidau,6'823,


Und ich merke, dass wiederum das, was mich interessiert, ab der vierten Zeile beginnt.

### 2. Daten reinigen

Wiederum schneide ich die Zeilen oben ab, die ich nicht benötige

In [117]:
einwohnerzahlentest = test_einwohnerzahlen[4:99]
einwohnerzahlentest

Unnamed: 0,0,1,2,3,4,5,6
4,,669 Münchenwiler,Grissachstrasse 30,1797,Münchenwiler,522,
5,,616 Münsingen,"Neue Bahnhofstrasse 4, Postfach 1330",3110,Münsingen,12'724,
6,,498 Müntschemier,Dorfplatz 2,3225,Müntschemier,1'406,
7,,356 Muri bei Bern,Thunstrasse 74,3074,Muri b.Bern,13'054,
8,,670 Neuenegg,Dorfstrasse 16,3176,Neuenegg,5'541,
9,,743 Nidau,"Schulgasse 2, Postfach 240",2560,Nidau,6'823,
10,,981 Niederbipp,Dorfstrasse 19,4704,Niederbipp,4'715,
11,,617 Niederhünigen,Dorfstrasse 14,3504,Niederhünigen,644,
12,,877 Niedermuhlern,,3087,Niedermuhlern,501,
13,,982 Niederönz,Aeschistrasse 32,3362,Niederönz,1'670,


#### Ich definiere wieder die Headers

In [70]:
headerseinwohnerzahlentest = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen']

In [71]:
einwohnerzahlentest.columns = headerseinwohnerzahlentest

In [72]:
einwohnerzahlentest.head(5)

Unnamed: 0,Irgendwas,Gemeinde,Adresse,PLZ,Sitz,Einwohnerzahl,Bemerkungen
4,,669 Münchenwiler,Grissachstrasse 30,1797,Münchenwiler,522,
5,,616 Münsingen,"Neue Bahnhofstrasse 4, Postfach 1330",3110,Münsingen,12'724,
6,,498 Müntschemier,Dorfplatz 2,3225,Müntschemier,1'406,
7,,356 Muri bei Bern,Thunstrasse 74,3074,Muri b.Bern,13'054,
8,,670 Neuenegg,Dorfstrasse 16,3176,Neuenegg,5'541,


Jetzt mache ich wieder einen for-loop, damit ich das nicht für jede Seite einzeln machen muss

In [73]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen'] #=meine Headers

#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige form

ValueError: Length mismatch: Expected axis has 6 elements, new values have 7 elements

### Es gibt mir diese Fehlermeldung, weil nicht alle Seiten eine Bemerkungs-Kolonne haben. Ich muss versuchen, diese letzte Kolonne abzuschneiden. vielleicht mit if-in-range-dann cut

In [83]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen'] #=meine Headers
if 'Bemerkungen'not in headerseinwohnerzahlen:
    continue  #vielleicht so? mit dem befehl, dass er das einfach überspringen soll?
        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

SyntaxError: 'continue' not properly in loop (<ipython-input-83-0ec4e888de8a>, line 8)

Der Einsatz muss also anderswo hin

In [81]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen'] #=meine Headers
        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    if 'Bemerkungen'not in headerseinwohnerzahlen:
        continue
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

ValueError: Length mismatch: Expected axis has 6 elements, new values have 7 elements

Hier kommt er also zu spät. Ich versuchs weiter vorne.

In [85]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen'] #=meine Headers
        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    if 'Bemerkungen'not in headerseinwohnerzahlen:
        continue
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

ValueError: Length mismatch: Expected axis has 6 elements, new values have 7 elements

wahrscheinlich bin ich auf dem Holzweg. also suche ich eine neue Lösung

In [86]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen'] #=meine Headers
        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    if 'Bemerkungen'in headerseinwohnerzahlen:
        continue
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

jetzt ist irgendwas gegangen. Aber was???

In [91]:
ffeinwohnerzahlen.head(20)

In [94]:
ffeinwohnerzahlen.info

<bound method DataFrame.info of Empty DataFrame
Columns: []
Index: []>

### Jetzt hab ich also als Kolonnen und Index nur noch leere Listen. Wahrscheinlich zeigts mir nichts an, weil ich ja per definitionem die Bemerkungen in den Headers hab. Also definitiv der Holzweg. Ich überlege mir was neues

Also. Was ich ja machen muss, ist: Ich muss diese Seiten 0 bis 3 aneinanderkleben. Und ihnen die Headers geben. Und wenn eine der vier Seiten diesen Header "Bemerkungen" nicht hat, muss ich diese Kolonne halt hinzufügen dort. Oder ich muss sie bei den anderen löschen. Ich könnte das ja der Einfachheit halber auch einzeln tun. Aber das wäre etwas kompliziert, vor allem, wenn der Datensatz dann grösser ist. Aber wie könnte ich das einzeln tun? Oder losgelöst von diesem ganzen anderen Geloope?

In [95]:
einwohnerzahlen

<TableList n=4>

In [111]:
einwohnerzahlen[0].df

Unnamed: 0,0,1,2,3,4,5
0,,,Adressen und Einwohnerzahlen der Einwohner- un...,,,
1,,,Adresses et nombre d'habitants des communes mu...,,,
2,,,,PLZ /,,Einwohner / \nBemerkungen /
3,BFS/(cid:10)OFS,Name / nom,Adresse / adresse,NPA,Ort / lieu,habitants\nRemarques
4,,301 Aarberg,Stadtplatz 46,3270,Aarberg,4'628
5,,321 Aarwangen,Langenthalstrasse 4,4912,Aarwangen,4'561
6,,561 Adelboden,Zelgstrasse 3,3715,Adelboden,3'390
7,,401 Aefligen,Fraubrunnenstrasse 3,3426,Aefligen,1'090
8,,731 Aegerten,Schulstrasse 3,2558,Aegerten,2'159
9,,562 Aeschi bei Spiez,,3703,Aeschi b. Spiez,2'217


Ich hab mir das Ganze nochmals angeschaut. Die ersten beiden haben eine Bemerkungen-Kolonne. Die letzten beiden nicht. 

Ich versuch jetzt einfach mal, was es macht, wenn ich die Bemerkungen bei den Headers weglasse. 

In [106]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

headerseinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl'] #=meine Headers
        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,3):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    temporaer.columns = headerseinwohnerzahlen #und dann setz uns bitte noch diese headers, die wir da definitert haben
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

ValueError: Length mismatch: Expected axis has 7 elements, new values have 6 elements

... was zu erwarten war...

Hier versuche ich mal, das ganze Headers-Thema wegzulassen und einfach den Loop zu machen.
Vielleicht kann ich mich in einem zweiten Schritt um die Headers kümmern.

In [109]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,4):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:] #hier sagen wir: aber im fall erst ab der 4. reihe
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

In [110]:
ffeinwohnerzahlen

Unnamed: 0,0,1,2,3,4,5,6
4,,301 Aarberg,Stadtplatz 46,3270,Aarberg,4'628,
5,,321 Aarwangen,Langenthalstrasse 4,4912,Aarwangen,4'561,
6,,561 Adelboden,Zelgstrasse 3,3715,Adelboden,3'390,
7,,401 Aefligen,Fraubrunnenstrasse 3,3426,Aefligen,1'090,
8,,731 Aegerten,Schulstrasse 3,2558,Aegerten,2'159,
9,,562 Aeschi bei Spiez,,3703,Aeschi b. Spiez,2'217,
10,,951 Affoltern im Emmental,,3416,Affoltern i. E.,1'101,
11,,402 Alchenstorf,Utzenstorfstrasse 3,3425,Koppigen,575,
12,,630 Allmendingen,Thunstrasse 9,3112,Allmendingen,590,
13,,921 Amsoldingen,,3633,Amsoldingen,812,


YES! Das ist doch immerhin schon etwas. und so nebenbei hab ich gemerkt, dass ich die vierte Seite nicht dabei hatte. die ist jetzt drin. 

Ich habe aber zu viele Kolonnen, es sollten nur 345 sein... das liegt an diesen doofen Endzeilen und wird mir am Schluss Probleme machen. Konkret sollte ich immer die letzte Zeile abschneiden. Oje, da hab ich mir schon mal dran die Zähne ausgebissen, weil es dann immer wieder die letzte Zeile abschnitt. 

In [118]:
ffeinwohnerzahlen = pd.DataFrame() #=meine leere df

        
#Und nun durch alles iterieren
#https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
for seite in range(0,4):
    temporaer = einwohnerzahlen[seite].df #hier sagen wir, immer vorwärts gehen zur nächsten seite
    temporaer = temporaer[4:99] #hier sagen wir: aber im fall erst ab der 4. reihe
    frameseinwohnerzahlen = [ffeinwohnerzahlen, temporaer]  #so kleben wir eine tabelle an die andere an. ff ist ein neues frame, temp ist unsere einzelne tabelle oben
    ffeinwohnerzahlen = pd.concat(frameseinwohnerzahlen)   #mit concat kommts dann in die richtige formffeinwohnerzahlen = pd.DataFrame() #=meine leere df

In [119]:
ffeinwohnerzahlen

Unnamed: 0,0,1,2,3,4,5,6
4,,301 Aarberg,Stadtplatz 46,3270,Aarberg,4'628,
5,,321 Aarwangen,Langenthalstrasse 4,4912,Aarwangen,4'561,
6,,561 Adelboden,Zelgstrasse 3,3715,Adelboden,3'390,
7,,401 Aefligen,Fraubrunnenstrasse 3,3426,Aefligen,1'090,
8,,731 Aegerten,Schulstrasse 3,2558,Aegerten,2'159,
9,,562 Aeschi bei Spiez,,3703,Aeschi b. Spiez,2'217,
10,,951 Affoltern im Emmental,,3416,Affoltern i. E.,1'101,
11,,402 Alchenstorf,Utzenstorfstrasse 3,3425,Koppigen,575,
12,,630 Allmendingen,Thunstrasse 9,3112,Allmendingen,590,
13,,921 Amsoldingen,,3633,Amsoldingen,812,


Okay, das schaut viel besser aus. Ich habe im Loop drin nun die Zeilen 4 bis 99 ausgewählt, also die letzte abgeschnitten. Minus die zwei von der letzten Seite und die Headerzeile, dann geht das auf mit 346 Gemeinden.

Dann setze ich jetzt also die Headers neu. 

In [128]:
headersffeinwohnerzahlen = ['Irgendwas','Gemeinde', 'Adresse', 'PLZ', 'Sitz','Einwohnerzahl','Bemerkungen']
ffeinwohnerzahlen.columns = headerseinwohnerzahlen

ValueError: Length mismatch: Expected axis has 7 elements, new values have 6 elements

Ja aber nein! Jetzt sollte das doch gehen, weil es doch aneinandergeklebt ist und dort,
wos keine Bemerkungen hatte, einfach ein Nan drin ist! Es hat doch 7 Kolonnen in diesem Dataframe!

Vielleicht ist es einfacher, wenn ich die Kolonnen, die ich nicht brauche, einfach mal lösche. Ich brauche ja eigentlich nur die Kolonne 1 und 5. Der Rest kann mir gestohlen bleiben.

vom Cheatsheet:
df.iloc[:,[1,2,5]]						Select	columns	in	posi7ons	1,	2	and	5	(ﬁrst	column	is	0).	

In [143]:
einwohnerzahlenneu = ffeinwohnerzahlen.iloc[:, [1,5]]

In [144]:
einwohnerzahlenneu

Unnamed: 0,1,5
4,301 Aarberg,4'628
5,321 Aarwangen,4'561
6,561 Adelboden,3'390
7,401 Aefligen,1'090
8,731 Aegerten,2'159
9,562 Aeschi bei Spiez,2'217
10,951 Affoltern im Emmental,1'101
11,402 Alchenstorf,575
12,630 Allmendingen,590
13,921 Amsoldingen,812


Jaaaaaa!!!! Ich merke mir unbedingt den .iloc code, den ich auf dem Cheatsheet gefunden habe.
Es gibt ihn auch für Rows. 

Und jetzt versuch ich mein Glück nochmals mit den Headers.

In [147]:
headerseinwohnerzahlenneu = ['Gemeinde','Einwohnerzahl 2018']
einwohnerzahlenneu.columns = headerseinwohnerzahlenneu

In [148]:
einwohnerzahlenneu

Unnamed: 0,Gemeinde,Einwohnerzahl 2018
4,301 Aarberg,4'628
5,321 Aarwangen,4'561
6,561 Adelboden,3'390
7,401 Aefligen,1'090
8,731 Aegerten,2'159
9,562 Aeschi bei Spiez,2'217
10,951 Affoltern im Emmental,1'101
11,402 Alchenstorf,575
12,630 Allmendingen,590
13,921 Amsoldingen,812


Mich stört, dass die Tabelle erst bei 4 beginnt. Also ersetze ich den Index.

In [149]:
einwohnerzahlenneu = einwohnerzahlenneu.reset_index() #so läuft das von 1 an durch dann, nicht erst ab 9
del einwohnerzahlenneu['index'] #und so lösche ich dann die index-kolonne, die index heisst und nun nicht mehr nötig ist

In [150]:
einwohnerzahlenneu

Unnamed: 0,Gemeinde,Einwohnerzahl 2018
0,301 Aarberg,4'628
1,321 Aarwangen,4'561
2,561 Adelboden,3'390
3,401 Aefligen,1'090
4,731 Aegerten,2'159
5,562 Aeschi bei Spiez,2'217
6,951 Affoltern im Emmental,1'101
7,402 Alchenstorf,575
8,630 Allmendingen,590
9,921 Amsoldingen,812


#### Ich schneide die komischen Zahlen vor Aarberg ab

In [152]:
#Um die beiden Tabellen zu mergen, muss die Gemeindespalte der Einwohner-Tabelle bearbeitet werden.
#In jeder Zelle müssen die ersten vier Stellen abgeschnitten werden.
def cutstring(string):
    string = string[4:]
    return string
var = "301 Aarberg"
cutstring(var)

'Aarberg'

Und nun mach ich das für alle

In [153]:
einwohnerzahlenneu['Gemeinde'] = einwohnerzahlenneu['Gemeinde'].apply(cutstring)

In [154]:
einwohnerzahlenneu

Unnamed: 0,Gemeinde,Einwohnerzahl 2018
0,Aarberg,4'628
1,Aarwangen,4'561
2,Adelboden,3'390
3,Aefligen,1'090
4,Aegerten,2'159
5,Aeschi bei Spiez,2'217
6,Affoltern im Emmental,1'101
7,Alchenstorf,575
8,Allmendingen,590
9,Amsoldingen,812


# Schritt 3: Ich merge die Dataframes

In [155]:
#Merge
finalesdf = dfunfälle.merge(einwohnerzahlen, left_on='Gemeinde', right_on='Gemeinde')

TypeError: Can only merge Series or DataFrame objects, a <class 'camelot.core.TableList'> was passed

Es geht also nicht, wenn ich das direkt von hier nehme. Wahrscheinlich muss das Dataframe Unfälle zuerst als CSV speichern, damit ichs wieder reinnehmen und dann mergen kann. 

oder: Ich muss beide angeben, sagt das Cheatsheet. Das probier ich mal hier.

In [156]:
pd.merge(dfunfälle,einwohnerzahlenneu,
         how ='left',on='Gemeinde')

Unnamed: 0,Gemeinde,Sachschaden,Personenschaden,Getötete,Schwerverletzte,Leichtverletzte,Einwohnerzahl 2018
0,Aarberg,26,12,0,2,15,4'628
1,Aarwangen,10,15,0,2,14,4'561
2,Adelboden,8,11,1,3,9,3'390
3,Aefligen,0,0,0,0,0,1'090
4,Aegerten,3,3,0,0,4,2'159
5,Aeschi bei Spiez,9,6,0,2,5,2'217
6,Affoltern im Emmental,3,4,0,0,4,1'101
7,Alchenstorf,1,1,0,0,2,575
8,Allmendingen,5,3,0,2,1,590
9,Amsoldingen,2,0,0,0,0,812
