# Grundgerüst Leistungsausweis
Dieses Notebook soll euch als Grundgerüst für euren Leistungsnachweis dienen. Es soll euch eine Idee/ Hilfestellung bieten, wie man einen neuen Datensatz, basierend auf einer Fragestellung, strukturiert analysieren und interpretieren kann. Wie besagt, dient das Notebook als Hilfestellung, ist jedoch keinenfalls vollständig ausgeschöpft. In diesem Sinne dürft ihr auch gerne Sachen miteinbeziehen, welche hier nicht genannt werden. 

-> Bitte schreibt die Antwort zu den jeweiligen Punkten an oberster Stelle unterhalb der Titel (so wie dies auch im Leistungsnachweisbeispiel gemacht wurde).


## Struktur
1. Fragestellung(en) und Datenbeschaffung
2. Daten laden
3. Daten vorbereiten
4. Statistik der Rohdaten (Generell im Longformat)
5. Analyse der Daten

**Wichtig:** Alle graphischen Darstellungen sollten mindestens *Titel, Ticks- und Achsenbeschriftung* beinhalten (Siehe plots im Leistungsnachweisbeispiel)

---

## 1. Fragestellung(en) und Datenbeschaffung
### 1.1 Titel: 
- "Gesundheitskosten im Vergleich"
### 1.2 Fragestellung:
- "  1. Gibt es eine inverse Beziehung zwischen öffentlichen Ausgaben und Out-of-Pocket-Ausgaben? "
- " 2. In welchen Ländern gibt es ein Gleichgewicht oder extreme Unterschiede? "   
### 1.3 Datenquelle(n):
Beispiele für mögliche Datenquellen:
- https://ourworldindata.org/financing-healthcare





### 1.4 Daten beschaffen und laden

In [1]:
# lade deine Bibliotheken -> Pandas, Seaborn, Matplotlib sind die wichtigsten für diese Aufgaben

import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [22]:
df1 = pd.read_csv("public-health-expenditure-share-gdp.csv", skiprows=1, 
                 names=["Land", "Kürzel", "Jahr", "öffentliche Gesundheitsausgaben"])
df1.drop("Kürzel", axis=1, inplace=True)
df1 = df1[~((df1["Jahr"] >= 1880) & (df1["Jahr"] <= 1999))]
df1.head()

Unnamed: 0,Land,Jahr,öffentliche Gesundheitsausgaben
0,Albania,2010,2.442
1,Albania,2011,2.387
2,Albania,2012,2.474
3,Albania,2013,2.605
4,Albania,2014,2.617


In [21]:
df2 = pd.read_csv("share-of-out-of-pocket-expenditure-on-healthcare.csv", skiprows=1, 
                 names=["Land", "Code", "Jahr", "Selbstgetragene Gesundheitsausgaben"])
df2.drop("Code", axis=1, inplace=True)
df2.head()

Unnamed: 0,Land,Jahr,Selbstgetragene Gesundheitsausgaben
0,Afghanistan,2002,85.3756
1,Afghanistan,2003,86.06919
2,Afghanistan,2004,84.52759
3,Afghanistan,2005,78.970085
4,Afghanistan,2006,76.824974


## 2. Daten vorbereiten 
- Welches Format hat mein Datensatz bzw. wie sind meine Kolumnen strukturiert?
- Welches Format kann ich für welche Teilschritte verwenden (wann soll ich pivot bzw. wide format verwenden)?
- Welche Datentypen kommen in meinem Datensatz vor?

In [19]:
df_pivot = df.pivot(index="Land", columns="Jahr", values="öffentliche Gesundheitsausgaben")
df_pivot.head()

KeyError: 'öffentliche Gesundheitsausgaben'

## 3. Statistik der Rohdaten (Analyse im Long-Format)
- Ist meine Variable kontinuierlich oder diskret? Falls diskret, wieviele einzigartige Klassen gibt es? Wieviele Datenpunkte pro Klasse sind vorhanden?
- Anzahl Datenpunkte (Beschreibend und Graphische Darstellung)
    - Wieviele Datenpunkte sind für die bestimmten Variabeln vorhanden?
    - Wo fehlen Datenpunkte?
- Wie ist die Verteilung der zu untersuchenden Variabel(n) (Histogram, Boxplot, Säulendiagram)
- Vermutest du Zusammenhänge zwischen zwei Variabeln (Streuungsdiagramm, Korrelationsmatrix)

*Notiz: Zu jeder Kolumne sollte generell eine Aussage möglich sein.*

## 4. Analyse 

### Vorgehen
- Spezifische Untersuchung der Fragestellung (Berechnungen)
- Visualisieren der Resultate: Verwendet Achsenbeschriftung und überlegt euch, welche Art von Darstellung sinnvoll ist (Kuchen-, Säulen, Liniendiagramm; 2 y-Achsen?)
- Beschreiben der Beobachtungen
- Interpretation der Resultate (Hypothesen zu den Resultaten)
- Untermauern der Interpretation mittels Hinweise zur Literatur (Mögliche Zusammenhänge aufzeigen).

