# Pandas Leistungsnachweis

## Inhaltsverzeichnis
1. Fragestellung und Datenbeschaffung
2. Daten laden
3. Daten vorbereiten
4. Statistik der Rohdaten (Generell im Longformat)
5. Analyse der Daten

**Wichtig:** Alle graphischen Darstellungen sollten mindestens *Titel, Ticks- und Achsenbeschriftung* beinhalten (Siehe plots im Leistungsnachweisbeispiel)

## 1. Fragestellungen und Datenbeschaffung
### 1.1 Titel: 
- "Mütterliche Sterblichkeitsraten der Weltbevölkerung"
### 1.2 Fragestellung:
- "Welche zehn Länder zeigen in den letzten 20 Jahren die höchste müttlerliche Sterblichkeitsrate? Was sind mögliche Gründe für Veränderungen dieser Zahlen?"   
### 1.3 Datenquellen:
- [Maternal-Mortality](https://ourworldindata.org/maternal-mortality)





### 1.4 Daten beschaffen und laden

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('number-of-maternal-deaths-by-region.csv', skiprows=1,
                 names=['Entity','Code','Year','Estimated maternal deaths']) 
df.head() 

Unnamed: 0,Entity,Code,Year,Estimated maternal deaths
0,Afghanistan,AFG,1985,10258.534
1,Afghanistan,AFG,1986,8671.921
2,Afghanistan,AFG,1987,8488.96
3,Afghanistan,AFG,1988,7522.1216
4,Afghanistan,AFG,1989,7549.705


## 2. Daten vorbereiten 
- Welches Format hat mein Datensatz bzw. wie sind meine Kolumnen strukturiert?
- Welches Format kann ich für welche Teilschritte verwenden (wann soll ich pivot bzw. wide format verwenden)?
- Welche Datentypen kommen in meinem Datensatz vor?

In [5]:
df_pivot = df.pivot(index='Entity', columns='Year', values='Estimated maternal deaths')
df_pivot.head()

Year,1985,1986,1987,1988,1989,1990,1991,1992,1993,1994,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Entity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Afghanistan,10258.534,8671.921,8488.96,7522.1216,7549.705,7812.4585,7743.889,8404.7295,9554.337,10849.466,...,10233.407,10143.417,10242.153,10013.264,10208.116,9867.574,9081.677,8996.077,8878.076,8698.113
Africa,222858.48,221952.14,233024.19,231802.62,225753.34,227292.12,228749.75,239266.81,240080.67,234074.69,...,221603.27,218967.64,218840.14,218810.92,215300.66,214324.38,213705.03,213123.27,211770.3,207742.58
Albania,40.066902,35.25017,32.930653,30.484293,28.652466,26.628704,22.968624,21.309374,19.88659,17.938005,...,2.815829,2.728846,2.597531,2.453451,2.338617,2.196508,2.073806,1.628788,1.591507,2.482934
Algeria,2187.8162,2024.1606,1966.3341,1822.9799,1744.9213,1615.6853,1601.3304,1608.7673,1586.6643,1540.073,...,957.6067,938.24774,905.7031,848.5919,895.78314,904.2167,908.3727,802.8612,763.3077,757.5242
Angola,5698.489,5832.26,5653.7505,5821.0938,6489.1377,6675.125,6577.1885,7266.2026,7125.9927,7074.371,...,3595.0142,3353.5657,3292.978,3372.5994,3231.1748,3251.3743,3112.0278,2930.02,2923.5007,2913.6323


## 3. Statistik der Rohdaten (Analyse im Long-Format)
- Ist meine Variable kontinuierlich oder diskret? Falls diskret, wieviele einzigartige Klassen gibt es? Wieviele Datenpunkte pro Klasse sind vorhanden?
- Anzahl Datenpunkte (Beschreibend und Graphische Darstellung)
    - Wieviele Datenpunkte sind für die bestimmten Variabeln vorhanden?
    - Wo fehlen Datenpunkte?
- Wie ist die Verteilung der zu untersuchenden Variabel(n) (Histogram, Boxplot, Säulendiagram)
- Vermutest du Zusammenhänge zwischen zwei Variabeln (Streuungsdiagramm, Korrelationsmatrix)

*Notiz: Zu jeder Kolumne sollte generell eine Aussage möglich sein.*

## 4. Analyse 

### Vorgehen
- Spezifische Untersuchung der Fragestellung (Berechnungen)
- Visualisieren der Resultate: Verwendet Achsenbeschriftung und überlegt euch, welche Art von Darstellung sinnvoll ist (Kuchen-, Säulen, Liniendiagramm; 2 y-Achsen?)
- Beschreiben der Beobachtungen
- Interpretation der Resultate (Hypothesen zu den Resultaten)
- Untermauern der Interpretation mittels Hinweise zur Literatur (Mögliche Zusammenhänge aufzeigen).

