# Grundgerüst Leistungsausweis
Dieses Notebook soll euch als Grundgerüst für euren Leistungsnachweis dienen. Es soll euch eine Idee/ Hilfestellung bieten, wie man einen neuen Datensatz, basierend auf einer Fragestellung, strukturiert analysieren und interpretieren kann. Wie besagt, dient das Notebook als Hilfestellung, ist jedoch keinenfalls vollständig ausgeschöpft. In diesem Sinne dürft ihr auch gerne Sachen miteinbeziehen, welche hier nicht genannt werden. 

-> Bitte schreibt die Antwort zu den jeweiligen Punkten an oberster Stelle unterhalb der Titel (so wie dies auch im Leistungsnachweisbeispiel gemacht wurde).


## Struktur
1. Fragestellung(en) und Datenbeschaffung
2. Daten laden
3. Daten vorbereiten
4. Statistik der Rohdaten (Generell im Longformat)
5. Analyse der Daten

**Wichtig:** Alle graphischen Darstellungen sollten mindestens *Titel, Ticks- und Achsenbeschriftung* beinhalten (Siehe plots im Leistungsnachweisbeispiel)

---

## 1. Fragestellung(en) und Datenbeschaffung
### 1.1 Titel: 
- "Todesfälle bei Kindern aufgrund von Krankheiten, die durch invasive Pneumokokken verursacht werden, weltweit"
### 1.2 Fragestellungen:
- "Wie haben sich die Todesfälle durch Pneumokokken-bedingte Pneumonie, Meningitis und andere invasive Krankheiten weltweit zwischen 2000 und 2015 verändert?"   
- "Welcher prozentuale Anteil der Todesfälle durch invasive Pneumokokken-Erkrankungen entfiel im Jahr 2000 und 2015 jeweils auf Pneumonie, Meningitis und andere Krankheiten?"
- "In welchem Jahr wurde der grösste Rückgang bei den Todesfällen durch Pneunokokken-bedingte Krankheiten weltweit beobachtet?"
### 1.3 Datenquelle(n):
- https://ourworldindata.org/pneumonia 




### 1.4 Daten beschaffen und laden

In [1]:
# lade deine Bibliotheken -> Pandas, Seaborn, Matplotlib sind die wichtigsten für diese Aufgaben

import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [None]:
# lade hier deine Daten
df_orig = pd.read_csv("child-deaths-from-streptococcus-by-disease.csv")
df_orig.head()

Unnamed: 0,Entity,Code,Year,Streptococcus non-pneumonia-non-meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5)
0,Afghanistan,AFG,2000,499,1588,8257
1,Afghanistan,AFG,2001,508,1617,8415
2,Afghanistan,AFG,2002,510,1622,8520
3,Afghanistan,AFG,2003,510,1623,8598
4,Afghanistan,AFG,2004,506,1609,8603


## 2. Daten vorbereiten 
- Die Roh-Daten sind bereits im Long-Format vorhanden.
- Für die Analyse werden die Roh-Daten pivotiert: Jede Spalte repräsentiert eine Kategorie der Todesfälle (z. B.Pneumonie, Meningitis, invasive nicht-Pneumonie), und die Zeilen sind die verschiedenen Jahre in aufsteigender Reihenfolge. 

In [25]:
df_pivot = df_orig.pivot_table(index='Entity', columns='Year', values=["Streptococcus non-pneumonia-non-meningitis deaths (aged under-5)", "Streptococcus meningitis deaths (aged under-5)", "Streptococcus pneumonia deaths (aged under-5)" ])
df_pivot.head()

Unnamed: 0_level_0,Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),Streptococcus meningitis deaths (aged under-5),...,Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5),Streptococcus pneumonia deaths (aged under-5)
Year,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,...,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
Entity,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Afghanistan,1588.0,1617.0,1622.0,1623.0,1609.0,1579.0,1553.0,1511.0,1462.0,1407.0,...,8493.0,8394.0,8267.0,8113.0,7920.0,7663.0,7369.0,7046.0,5496.0,4199.0
Albania,5.0,4.0,4.0,3.0,3.0,2.0,2.0,2.0,2.0,3.0,...,30.0,26.0,23.0,23.0,23.0,14.0,12.0,11.0,11.0,9.0
Algeria,107.0,102.0,97.0,92.0,90.0,88.0,88.0,89.0,91.0,93.0,...,901.0,908.0,930.0,941.0,950.0,956.0,969.0,978.0,974.0,972.0
Andorra,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Angola,1305.0,1322.0,1369.0,1381.0,1393.0,1418.0,1444.0,1464.0,1484.0,1487.0,...,11687.0,12096.0,12432.0,12606.0,12681.0,12611.0,12462.0,11867.0,10033.0,8704.0


## 3. Statistik der Rohdaten (Analyse im Long-Format)
- Ist meine Variable kontinuierlich oder diskret? Falls diskret, wieviele einzigartige Klassen gibt es? Wieviele Datenpunkte pro Klasse sind vorhanden?
- Anzahl Datenpunkte (Beschreibend und Graphische Darstellung)
    - Wieviele Datenpunkte sind für die bestimmten Variabeln vorhanden?
    - Wo fehlen Datenpunkte?
- Wie ist die Verteilung der zu untersuchenden Variabel(n) (Histogram, Boxplot, Säulendiagram)
- Vermutest du Zusammenhänge zwischen zwei Variabeln (Streuungsdiagramm, Korrelationsmatrix)

*Notiz: Zu jeder Kolumne sollte generell eine Aussage möglich sein.*

NameError: name 'df' is not defined

In [31]:
1

1

## 4. Analyse 

### Vorgehen
- Spezifische Untersuchung der Fragestellung (Berechnungen)
- Visualisieren der Resultate: Verwendet Achsenbeschriftung und überlegt euch, welche Art von Darstellung sinnvoll ist (Kuchen-, Säulen, Liniendiagramm; 2 y-Achsen?)
- Beschreiben der Beobachtungen
- Interpretation der Resultate (Hypothesen zu den Resultaten)
- Untermauern der Interpretation mittels Hinweise zur Literatur (Mögliche Zusammenhänge aufzeigen).

