# Grundgerüst Leistungsausweis
Dieses Notebook soll euch als Grundgerüst für euren Leistungsnachweis dienen. Es soll euch eine Idee/ Hilfestellung bieten, wie man einen neuen Datensatz, basierend auf einer Fragestellung, strukturiert analysieren und interpretieren kann. Wie besagt, dient das Notebook als Hilfestellung, ist jedoch keinenfalls vollständig ausgeschöpft. In diesem Sinne dürft ihr auch gerne Sachen miteinbeziehen, welche hier nicht genannt werden. 

-> Bitte schreibt die Antwort zu den jeweiligen Punkten an oberster Stelle unterhalb der Titel (so wie dies auch im Leistungsnachweisbeispiel gemacht wurde).


## Struktur
1. Fragestellung(en) und Datenbeschaffung
2. Daten laden
3. Daten vorbereiten
4. Statistik der Rohdaten (Generell im Longformat)
5. Analyse der Daten

**Wichtig:** Alle graphischen Darstellungen sollten mindestens *Titel, Ticks- und Achsenbeschriftung* beinhalten (Siehe plots im Leistungsnachweisbeispiel)

---

## 1. Fragestellung(en) und Datenbeschaffung
### 1.1 Titel: 
- "Titel eurer Arbeit"
### 1.2 Fragestellung:
- "Eure Fragestellung"   
### 1.3 Datenquelle(n):
Beispiele für mögliche Datenquellen:
- https://ourworldindata.org
- https://healthdata.gov/
- https://www.who.int/data/collections
- https://www.kaggle.com/datasets?tags=4202-Healthcare




### 1.4 Daten beschaffen und laden

In [2]:
# lade deine Bibliotheken -> Pandas, Seaborn, Matplotlib sind die wichtigsten für diese Aufgaben

import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [3]:
# Lebenserwartung gesamt
url = "https://ourworldindata.org/grapher/life-expectancy.csv"

# Daten laden
df = pd.read_csv(url)

# Erste Zeilen anzeigen
print(df.head())
print(df.columns)


        Entity Code  Year  Period life expectancy at birth
0  Afghanistan  AFG  1950                          28.1563
1  Afghanistan  AFG  1951                          28.5836
2  Afghanistan  AFG  1952                          29.0138
3  Afghanistan  AFG  1953                          29.4521
4  Afghanistan  AFG  1954                          29.6975
Index(['Entity', 'Code', 'Year', 'Period life expectancy at birth'], dtype='object')


## 2. Daten vorbereiten 
- Welches Format hat mein Datensatz bzw. wie sind meine Kolumnen strukturiert?
- Welches Format kann ich für welche Teilschritte verwenden (wann soll ich pivot bzw. wide format verwenden)?
- Welche Datentypen kommen in meinem Datensatz vor?

- Welches Format hat mein Datensatz bzw. wie sind meine Kolumnen strukturiert?

- Welches Format kann ich für welche Teilschritte verwenden (wann soll ich pivot bzw. wide format verwenden)?

- Welche Datentypen kommen in meinem Datensatz vor?

In [4]:
df[df['Year'] >= 2000]

Unnamed: 0,Entity,Code,Year,Period life expectancy at birth
50,Afghanistan,AFG,2000,55.0047
51,Afghanistan,AFG,2001,55.5113
52,Afghanistan,AFG,2002,56.2251
53,Afghanistan,AFG,2003,57.1713
54,Afghanistan,AFG,2004,57.8098
...,...,...,...,...
21560,Zimbabwe,ZWE,2019,61.0603
21561,Zimbabwe,ZWE,2020,61.5300
21562,Zimbabwe,ZWE,2021,60.1347
21563,Zimbabwe,ZWE,2022,62.3601


In [5]:
import pandas as pd

# OWID Grapher CSV für Lebenserwartung
url = "https://ourworldindata.org/grapher/life-expectancy.csv"
df = pd.read_csv(url)

# Erste Zeilen
print(df.head())

        Entity Code  Year  Period life expectancy at birth
0  Afghanistan  AFG  1950                          28.1563
1  Afghanistan  AFG  1951                          28.5836
2  Afghanistan  AFG  1952                          29.0138
3  Afghanistan  AFG  1953                          29.4521
4  Afghanistan  AFG  1954                          29.6975


In [6]:
# Spaltennamen
print("Spalten:", df.columns.tolist())

# Datentypen
print(df.dtypes)

# Anzahl Länder und Jahre
print("Anzahl Länder:", df["Entity"].nunique())
print("Zeitraum:", df["Year"].min(), "-", df["Year"].max())

Spalten: ['Entity', 'Code', 'Year', 'Period life expectancy at birth']
Entity                              object
Code                                object
Year                                 int64
Period life expectancy at birth    float64
dtype: object
Anzahl Länder: 265
Zeitraum: 1543 - 2023


## 3. Statistik der Rohdaten (Analyse im Long-Format)
- Ist meine Variable kontinuierlich oder diskret? Falls diskret, wieviele einzigartige Klassen gibt es? Wieviele Datenpunkte pro Klasse sind vorhanden?
- Anzahl Datenpunkte (Beschreibend und Graphische Darstellung)
    - Wieviele Datenpunkte sind für die bestimmten Variabeln vorhanden?
    - Wo fehlen Datenpunkte?
- Wie ist die Verteilung der zu untersuchenden Variabel(n) (Histogram, Boxplot, Säulendiagram)
- Vermutest du Zusammenhänge zwischen zwei Variabeln (Streuungsdiagramm, Korrelationsmatrix)

*Notiz: Zu jeder Kolumne sollte generell eine Aussage möglich sein.*

## 4. Analyse 

### Vorgehen
- Spezifische Untersuchung der Fragestellung (Berechnungen)
- Visualisieren der Resultate: Verwendet Achsenbeschriftung und überlegt euch, welche Art von Darstellung sinnvoll ist (Kuchen-, Säulen, Liniendiagramm; 2 y-Achsen?)
- Beschreiben der Beobachtungen
- Interpretation der Resultate (Hypothesen zu den Resultaten)
- Untermauern der Interpretation mittels Hinweise zur Literatur (Mögliche Zusammenhänge aufzeigen).

