# Bevölkerungsstatistik

Die [Bevölkerungsstatistik](https://www-genesis.destatis.de/genesis/online?operation=statistic&levelindex=0&levelid=1637662639240&code=12411#abreadcrumb) ist frei abrufbar.

Für die Auswertung habe ich den Zeitraum von **2010 bis 2020** gewählt.

Das Ergebnis habe ich als **csv-Datei** heruntergeladen.


## Daten aufbereiten

### Daten importieren
In den ersten vier Zeilen stehen unwichtige Informationen, Zeile 5 und 6 beinhalten die Spaltennamen. Leider stehen diese nicht in einer Zeile, deshalb übernehme ich nur Zeile 6 als Header. Auch in den letzten vier Zeilen stehen irrelevante Daten, deshalb lösche ich sie.

In [1]:
# import modules
import pandas as pd

pop_df = pd.read_csv('./data/1_pop_data.csv', delimiter=';', encoding='ISO-8859-1', header=[5])

In [2]:
pop_df = pop_df.drop([11, 12, 13, 14])

In [3]:
pop_df = pop_df.rename(columns={"Unnamed: 0": "Jahr"})
pop_df

Unnamed: 0,Jahr,Anzahl
0,31.12.2010,81751602.0
1,31.12.2011,80327900.0
2,31.12.2012,80523746.0
3,31.12.2013,80767463.0
4,31.12.2014,81197537.0
5,31.12.2015,82175684.0
6,31.12.2016,82521653.0
7,31.12.2017,82792351.0
8,31.12.2018,83019213.0
9,31.12.2019,83166711.0


### Typen verändern
Die Typen der Werte stimmen noch nicht:
- Das *Datum* muss entweder in ein DateTime-Objekt oder ein Integer umgewandelt. Da das genaue Datum irrelevant ist, reicht ein Integer
- Die *Anzahl* ist ein Float, da es sich jedoch um eine Anzahl von Menschen handelt, muss sie zu einem Integer umgewandelt werden 

In [4]:
pop_df.dtypes

Jahr       object
Anzahl    float64
dtype: object

In [5]:
pop_df['Anzahl'] = pop_df['Anzahl'].astype(int)

In [6]:
pop_df['Jahr'] = pd.to_datetime(pop_df['Jahr'], format='%d.%m.%Y')

In [7]:
pop_df.dtypes

Jahr      datetime64[ns]
Anzahl             int32
dtype: object

## Aufbereitete Daten

In [8]:
pop_df

Unnamed: 0,Jahr,Anzahl
0,2010-12-31,81751602
1,2011-12-31,80327900
2,2012-12-31,80523746
3,2013-12-31,80767463
4,2014-12-31,81197537
5,2015-12-31,82175684
6,2016-12-31,82521653
7,2017-12-31,82792351
8,2018-12-31,83019213
9,2019-12-31,83166711
