# Beispiel: Mietwohnungen in Düsseldorf, aufgeschlüsselt nach Quartieren

Wir wollen jetzt an einem konkreten Beispiel einige Features von Pandas testen. Bisher haben wir mit "schönen" Daten gearbeitet, doch in der Realität hat man es leider nicht immer so leicht. Das folgende Beispiel wurde von der Website 

https://opendata.duesseldorf.de/dataset/wohnungen-den-wohnquartieren-von-d%C3%BCsseldorf

heruntergeladen. Hier ist es der Datensatz

__Wohnungen nach Baujahr Wohnquartiere Düsseldorf 2017__

Ein aktueller Datensatz liegt nicht vor.

Laut Website enthält jeder Datensatz die folgenden Daten (Spalten):

* Wohnquartier
* Anzahl der Wohnungen in Nichtwohngebäuden
* Anzahl der Wohnungen in Wohngebäuden insgesamt
* Wohnfläche je Wohnung
* Anzahl der Wohnungen in Wohngebäuden mit Baujahr vor 1949
* Anzahl der Wohnungen in Wohngebäuden mit Baujahr 1949 – 1969
* Anzahl der Wohnungen in Wohngebäuden mit Baujahr 1970 – 1989
* Anzahl der Wohnungen in Wohngebäuden mit Baujahr nach 1990
* Anzahl der Wohnungen in EZFH insgesamt
* Anzahl der Wohnungen in EZFH mit Baujahr vor 1949
* Anzahl der Wohnungen in EZFH mit Baujahr 1949 – 1969
* Anzahl der Wohnungen in EZFH mit Baujahr 1970 – 1989
* Anzahl der Wohnungen in EZFH mit Baujahr nach 1990
* Anzahl der Wohnungen in MFH insgesamt
* Anzahl der Wohnungen in MFH mit Baujahr vor 1949
* Anzahl der Wohnungen in MFH mit Baujahr 1949 – 1969
* Anzahl der Wohnungen in MFH mit Baujahr 1970 – 1989
* Anzahl der Wohnungen in MFH mit Baujahr nach 1990
* Durchschnittliche Anzahl Wohnungen je Wohngebäude

In [1]:
import pandas as pd

### Datei einlesen

Wir können uns die Datei `wohnungen.csv` direkt ansehen. Wir erkennen, dass die Wohnungsdaten wie beschrieben nach `wohnquartier` aufgeschlüsselt sind. Außerdem sind die Werte mit Semikola getrennt, und unsere Float-Werte verwenden ein Komma statt eines Dezimalpunktes.

Wir lesen die Datei also wie folgt ein:

In [2]:
wohnungen = pd.read_csv("wohnungen.csv", delimiter=';',  decimal=",",  index_col = "wohnquartier");
wohnungen

Unnamed: 0_level_0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
wohnquartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
11001,452.0,1485.0,67.06,258.0,563.0,401.0,263.0,70.0,31.0,26.0,6.0,7.0,1415.0,227.0,537.0,395.0,256.0,6.6
11002,,,,,,,,,,,,,,,,,,
12001,393.0,1407.0,79.42,454.0,472.0,342.0,139.0,56.0,37.0,5.0,7.0,7.0,1351.0,417.0,467.0,335.0,132.0,6.6
12002,,,,,,,,,,,,,,,,,,
13001,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101014,,,,,,,,,,,,,,,,,,
102001,,476.0,106.01,3.0,,467.0,5.0,277.0,3.0,,268.0,5.0,199.0,,,199.0,,1.8
102002,,1081.0,94.47,21.0,15.0,271.0,774.0,490.0,6.0,3.0,199.0,282.0,591.0,15.0,12.0,72.0,492.0,2.2
102003,4.0,1081.0,103.10,8.0,,965.0,106.0,671.0,5.0,,588.0,76.0,410.0,3.0,,377.0,30.0,1.6


# Anzeige der Metadaten

Wir verschaffen uns einen kleinen Überblick, indem wir die Metadaten anzeigen lassen:

In [3]:
print(wohnungen.info())

<class 'pandas.core.frame.DataFrame'>
Index: 373 entries, 11001 to 102004
Data columns (total 18 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   bestand_in_nichtwohngebaeuden                  267 non-null    float64
 1   bestand_in_wohngebaeuden_insgesamt             319 non-null    float64
 2   wohnflaeche_je_wohnung                         319 non-null    float64
 3   bestand_in_wohngebaeuden_mit_bj_vor_1949       318 non-null    float64
 4   bestand_in_wohngebaeuden_mit_bj_1949_bis_1969  316 non-null    float64
 5   bestand_in_wohngebaeuden_mit_bj_1970_bis_1989  317 non-null    float64
 6   bestand_in_wohngebaeuden_mit_bj_nach_1990      317 non-null    float64
 7   bestand_in_ezfh_insgesamt                      297 non-null    float64
 8   bestand_in_ezfh_mit_bj_vor_1949                216 non-null    float64
 9   bestand_in_ezfh_mit_bj_1949_bis_1969           215 n

Wir sehen:

1. Die Bezeichnung der Spalten entspricht der obigen Beschreibung. Durch die Schreibweise mit dem _Underscore_ können wir auch über den Spaltennamen auf die Spalte zugreifen
3. Es sind 373 Datensätze vorhanden.
5. Bis auf den Wert für `wohnquartier` (der Index) sind für keinen Wert alle Daten vollständig vorhanden.



## Zugriff auf einzelne Daten

### Zugriff auf Spalten

Wir können eine einzelne Spalte extrahieren, indem wir als Index den Spaltennamen verwenden. Das Ergbnis ist eine `Series`:


In [4]:
bestand_in_mfh = wohnungen['bestand_in_in_mfh_insgesamt' ]
print(f'Daten-Typ bestand_in_mfh: {type(bestand_in_mfh)}')
print(bestand_in_mfh)
q = 102003
print(f'\nBestand in Quartier {q}: {bestand_in_mfh[q]:0.0f}')

Daten-Typ bestand_in_mfh: <class 'pandas.core.series.Series'>
wohnquartier
11001     1415.0
11002        NaN
12001     1351.0
12002        NaN
13001        NaN
           ...  
101014       NaN
102001     199.0
102002     591.0
102003     410.0
102004       3.0
Name: bestand_in_in_mfh_insgesamt, Length: 373, dtype: float64

Bestand in Quartier 102003: 410


### Summen über Spalten

Wir können numerische Werte einfach summieren, wie in `NumPy. Fehlende Werte (`NaN`) werden dabei ignoriert:

In [5]:
bestand_mfh_ges = int( bestand_in_mfh.sum())
print(f'Gesamtbestand: {bestand_mfh_ges:,}'.replace(",","."))

Gesamtbestand: 299.782


### Einfache Statistiken

Ein wichtiges Feature ist `describe()`. Hier wird eine einfache Statistik über sämtliche numerische Spalten erzeugt und angezeigt:

In [20]:
wohnungen.describe()

Unnamed: 0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
count,267.0,319.0,319.0,318.0,316.0,317.0,317.0,297.0,216.0,215.0,175.0,184.0,319.0,298.0,311.0,310.0,295.0,319.0
mean,52.074906,1072.012539,76.642602,232.150943,471.221519,216.381703,159.744479,141.93266,52.50463,62.437209,48.154286,47.369565,939.755486,209.483221,435.392283,193.841935,141.891525,6.614734
std,63.154557,398.473344,17.242261,206.834751,305.898585,187.184137,176.059364,175.615815,69.139629,72.600523,74.371807,60.728225,443.588025,196.392399,315.248321,171.278963,163.053918,4.377034
min,3.0,6.0,20.25,0.0,0.0,0.0,0.0,0.0,3.0,3.0,3.0,3.0,3.0,3.0,4.0,3.0,3.0,1.2
25%,13.0,822.0,64.575,77.5,231.75,89.0,43.0,12.0,8.0,10.0,6.0,9.0,605.0,57.0,166.0,78.0,40.0,3.4
50%,33.0,1076.0,71.7,182.0,438.5,173.0,112.0,72.0,27.0,32.0,18.0,23.0,974.0,159.5,392.0,152.0,94.0,6.1
75%,67.0,1328.0,83.62,329.0,673.75,271.0,216.0,206.0,67.25,90.0,61.5,61.25,1246.5,298.5,636.0,235.25,181.5,9.3
max,452.0,2357.0,148.22,1066.0,1428.0,989.0,1694.0,912.0,516.0,399.0,588.0,292.0,2309.0,937.0,1401.0,948.0,1693.0,49.7


## Fehlende Daten

Wir haben gesehen, dass der Datensatz nicht vollständig ist. In allen Spalten fehlen Daten, und es gibt sogar einzeln Zeilen, die komplett leer sind. Hier wurde einige Quartiere nicht erfasst.

Wie man fachlich mit  fehlenden Daten umgeht, ist Sache der Statistiker (oder Data Scientists). Technisch bietet `Pandas` alle Möglichkeiten, Datensätze entsprechend zu manipulieren.

### Leere Zeilen entfernen

Als erstes löschen wir aus unserem Datensatz alle leeren Zeilen. Zum Entfernen verwenden wir die Funktion `dropna()

In [6]:
wohnungen1 = wohnungen.dropna()
wohnungen1

Unnamed: 0_level_0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
wohnquartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
11001,452.0,1485.0,67.06,258.0,563.0,401.0,263.0,70.0,31.0,26.0,6.0,7.0,1415.0,227.0,537.0,395.0,256.0,6.6
12001,393.0,1407.0,79.42,454.0,472.0,342.0,139.0,56.0,37.0,5.0,7.0,7.0,1351.0,417.0,467.0,335.0,132.0,6.6
15003,7.0,753.0,71.83,424.0,255.0,52.0,22.0,157.0,115.0,32.0,7.0,3.0,596.0,309.0,223.0,45.0,19.0,3.0
16002,52.0,658.0,125.06,223.0,138.0,53.0,244.0,210.0,80.0,91.0,12.0,27.0,448.0,143.0,47.0,41.0,217.0,2.6
23005,8.0,2357.0,81.73,484.0,1428.0,223.0,222.0,48.0,13.0,27.0,4.0,4.0,2309.0,471.0,1401.0,219.0,218.0,7.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96003,42.0,1038.0,88.78,287.0,258.0,313.0,180.0,265.0,111.0,76.0,28.0,50.0,773.0,176.0,182.0,285.0,130.0,2.8
96004,29.0,1125.0,79.74,198.0,423.0,378.0,126.0,192.0,110.0,56.0,10.0,16.0,933.0,88.0,367.0,368.0,110.0,3.4
96005,4.0,826.0,108.26,122.0,362.0,209.0,133.0,628.0,113.0,285.0,137.0,93.0,198.0,9.0,77.0,72.0,40.0,1.5
98006,55.0,1196.0,74.39,139.0,396.0,303.0,358.0,146.0,29.0,16.0,83.0,18.0,1050.0,110.0,380.0,220.0,340.0,4.1


Hoppla! jetzt sind nur noch 107 Zeilen von 373 übrig. So schlecht war die Datenlage aber gar nicht.

`dropna()` löscht alle Zeilen, in denen _ein_ Datensatz fehlt. Wir wollten aber nur komplett leere Zeilen entfernen. Das geht soe:

In [7]:
wohnungen1 = wohnungen.dropna(how="all")
wohnungen1

Unnamed: 0_level_0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
wohnquartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
11001,452.0,1485.0,67.06,258.0,563.0,401.0,263.0,70.0,31.0,26.0,6.0,7.0,1415.0,227.0,537.0,395.0,256.0,6.6
12001,393.0,1407.0,79.42,454.0,472.0,342.0,139.0,56.0,37.0,5.0,7.0,7.0,1351.0,417.0,467.0,335.0,132.0,6.6
13002,430.0,1073.0,65.44,114.0,816.0,50.0,93.0,22.0,3.0,15.0,,,1051.0,111.0,801.0,48.0,91.0,8.3
13003,274.0,1678.0,61.71,92.0,1365.0,153.0,68.0,9.0,,7.0,,,1669.0,92.0,1358.0,151.0,68.0,10.1
13004,82.0,1171.0,60.21,89.0,940.0,115.0,27.0,3.0,,,,,1168.0,88.0,940.0,113.0,27.0,10.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101012,,164.0,114.99,19.0,12.0,38.0,95.0,135.0,12.0,8.0,38.0,77.0,29.0,7.0,4.0,,18.0,1.3
102001,,476.0,106.01,3.0,,467.0,5.0,277.0,3.0,,268.0,5.0,199.0,,,199.0,,1.8
102002,,1081.0,94.47,21.0,15.0,271.0,774.0,490.0,6.0,3.0,199.0,282.0,591.0,15.0,12.0,72.0,492.0,2.2
102003,4.0,1081.0,103.10,8.0,,965.0,106.0,671.0,5.0,,588.0,76.0,410.0,3.0,,377.0,30.0,1.6


Schon besser. Nur etwa 60 Zeilen wurden entfernt. Wie sieht die Lage nun aus?

In [8]:
wohnungen1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 319 entries, 11001 to 102004
Data columns (total 18 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   bestand_in_nichtwohngebaeuden                  267 non-null    float64
 1   bestand_in_wohngebaeuden_insgesamt             319 non-null    float64
 2   wohnflaeche_je_wohnung                         319 non-null    float64
 3   bestand_in_wohngebaeuden_mit_bj_vor_1949       318 non-null    float64
 4   bestand_in_wohngebaeuden_mit_bj_1949_bis_1969  316 non-null    float64
 5   bestand_in_wohngebaeuden_mit_bj_1970_bis_1989  317 non-null    float64
 6   bestand_in_wohngebaeuden_mit_bj_nach_1990      317 non-null    float64
 7   bestand_in_ezfh_insgesamt                      297 non-null    float64
 8   bestand_in_ezfh_mit_bj_vor_1949                216 non-null    float64
 9   bestand_in_ezfh_mit_bj_1949_bis_1969           215 n

Nun ist das Verhältnis fehlender Daten zu allen Daten nicht mehr so dramatisch. Einige Spalten sind sogar komplett gefüllt.

### Fehlende Werte auffüllen

Will man mit allen Zeilen und Spalten weiterarbeiten, so ist man i.a. gezwungen, die fehlenden Werte zu ergänzen, da sonst einige Berechnungen fehlschlagen werden. Das einfachste ist es, fehlenden Werte durch eine feste Zahl zu ergänzen:


In [13]:
wohnungen2 = wohnungen1.fillna(0)
wohnungen2

Unnamed: 0_level_0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
wohnquartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
11001,452.0,1485.0,67.06,258.0,563.0,401.0,263.0,70.0,31.0,26.0,6.0,7.0,1415.0,227.0,537.0,395.0,256.0,6.6
12001,393.0,1407.0,79.42,454.0,472.0,342.0,139.0,56.0,37.0,5.0,7.0,7.0,1351.0,417.0,467.0,335.0,132.0,6.6
13002,430.0,1073.0,65.44,114.0,816.0,50.0,93.0,22.0,3.0,15.0,0.0,0.0,1051.0,111.0,801.0,48.0,91.0,8.3
13003,274.0,1678.0,61.71,92.0,1365.0,153.0,68.0,9.0,0.0,7.0,0.0,0.0,1669.0,92.0,1358.0,151.0,68.0,10.1
13004,82.0,1171.0,60.21,89.0,940.0,115.0,27.0,3.0,0.0,0.0,0.0,0.0,1168.0,88.0,940.0,113.0,27.0,10.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101012,0.0,164.0,114.99,19.0,12.0,38.0,95.0,135.0,12.0,8.0,38.0,77.0,29.0,7.0,4.0,0.0,18.0,1.3
102001,0.0,476.0,106.01,3.0,0.0,467.0,5.0,277.0,3.0,0.0,268.0,5.0,199.0,0.0,0.0,199.0,0.0,1.8
102002,0.0,1081.0,94.47,21.0,15.0,271.0,774.0,490.0,6.0,3.0,199.0,282.0,591.0,15.0,12.0,72.0,492.0,2.2
102003,4.0,1081.0,103.10,8.0,0.0,965.0,106.0,671.0,5.0,0.0,588.0,76.0,410.0,3.0,0.0,377.0,30.0,1.6


In [12]:
wohnungen2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 319 entries, 11001 to 102004
Data columns (total 18 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   bestand_in_nichtwohngebaeuden                  319 non-null    float64
 1   bestand_in_wohngebaeuden_insgesamt             319 non-null    float64
 2   wohnflaeche_je_wohnung                         319 non-null    float64
 3   bestand_in_wohngebaeuden_mit_bj_vor_1949       319 non-null    float64
 4   bestand_in_wohngebaeuden_mit_bj_1949_bis_1969  319 non-null    float64
 5   bestand_in_wohngebaeuden_mit_bj_1970_bis_1989  319 non-null    float64
 6   bestand_in_wohngebaeuden_mit_bj_nach_1990      319 non-null    float64
 7   bestand_in_ezfh_insgesamt                      319 non-null    float64
 8   bestand_in_ezfh_mit_bj_vor_1949                319 non-null    float64
 9   bestand_in_ezfh_mit_bj_1949_bis_1969           319 n

Jetzt sind alle Werte gefüllt. Aber das ist natürlich eher _brute force_. Eleganter wäre es etwa, in jeder Spalte fehlende Werte durch den Mittelwert über diese Spalte aufzufüllen. Dann sieht für die ertse Spalte so aus:


In [18]:
wohnungen2['bestand_in_nichtwohngebaeuden'] = wohnungen1['bestand_in_nichtwohngebaeuden'].fillna(wohnungen1['bestand_in_nichtwohngebaeuden'].mean())
wohnungen2

Unnamed: 0_level_0,bestand_in_nichtwohngebaeuden,bestand_in_wohngebaeuden_insgesamt,wohnflaeche_je_wohnung,bestand_in_wohngebaeuden_mit_bj_vor_1949,bestand_in_wohngebaeuden_mit_bj_1949_bis_1969,bestand_in_wohngebaeuden_mit_bj_1970_bis_1989,bestand_in_wohngebaeuden_mit_bj_nach_1990,bestand_in_ezfh_insgesamt,bestand_in_ezfh_mit_bj_vor_1949,bestand_in_ezfh_mit_bj_1949_bis_1969,bestand_in_ezfh_mit_bj_1970_bis_1989,bestand_in_ezfh_mit_bj_nach_1990,bestand_in_in_mfh_insgesamt,bestand_in_mfh_mit_bj_vor_1949,bestand_in_mfh_mit_bj_1949_bis_1969,bestand_in_mfh_mit_bj_1970_bis_1989,bestand_in_mfh_mit_bj_nach_1990,durchschnittlicher_bestand_je_wohngebaeude
wohnquartier,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
11001,452.000000,1485.0,67.06,258.0,563.0,401.0,263.0,70.0,31.0,26.0,6.0,7.0,1415.0,227.0,537.0,395.0,256.0,6.6
12001,393.000000,1407.0,79.42,454.0,472.0,342.0,139.0,56.0,37.0,5.0,7.0,7.0,1351.0,417.0,467.0,335.0,132.0,6.6
13002,430.000000,1073.0,65.44,114.0,816.0,50.0,93.0,22.0,3.0,15.0,0.0,0.0,1051.0,111.0,801.0,48.0,91.0,8.3
13003,274.000000,1678.0,61.71,92.0,1365.0,153.0,68.0,9.0,0.0,7.0,0.0,0.0,1669.0,92.0,1358.0,151.0,68.0,10.1
13004,82.000000,1171.0,60.21,89.0,940.0,115.0,27.0,3.0,0.0,0.0,0.0,0.0,1168.0,88.0,940.0,113.0,27.0,10.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101012,52.074906,164.0,114.99,19.0,12.0,38.0,95.0,135.0,12.0,8.0,38.0,77.0,29.0,7.0,4.0,0.0,18.0,1.3
102001,52.074906,476.0,106.01,3.0,0.0,467.0,5.0,277.0,3.0,0.0,268.0,5.0,199.0,0.0,0.0,199.0,0.0,1.8
102002,52.074906,1081.0,94.47,21.0,15.0,271.0,774.0,490.0,6.0,3.0,199.0,282.0,591.0,15.0,12.0,72.0,492.0,2.2
102003,4.000000,1081.0,103.10,8.0,0.0,965.0,106.0,671.0,5.0,0.0,588.0,76.0,410.0,3.0,0.0,377.0,30.0,1.6


# Zusammenfassung

Bevor Daten mit Künstlicher Intelligenz verarbeitet werden können, müssen sie entsprechend aufbereitet werden. Erhobene Daten, insbesondere im soziologischen bereich, sind meist unvollständig. Die Statistik kennt entsprechende Methoden, mit solchen Daten umzugehen (z.B. durch _Imputation_). 

`Pandas` bietet alle erdenklichen Möglichkeiten, auch mit großen Datenmengen umzugehen. Dazu gehören

* Speichen, Laden und Konvertieren von Daten
* Zugriff auf und Anzeige von Datensätzen
* Manipulation einzelner Zellen, Zeilen, Spalten und kompletter Datensätze
* Statistische Berechnungen

Dabei lieg `Pandas` das numerische `Numpy`-Paket zugrunde. Wer `Numpy`beherrscht, wird sich mit `Pandas` nicht schwer tun.t Zusammn mit `Numpy`und `Matplotlib` bildet `Pandas`den grundlegenden Werkzeugkasten für _Data Scientists_, die mit Python arbeiten wollen.
