# Grundgerüst Leistungsausweis
Dieses Notebook soll euch als Grundgerüst für euren Leistungsnachweis dienen. Es soll euch eine Idee/ Hilfestellung bieten, wie man einen neuen Datensatz, basierend auf einer Fragestellung, strukturiert analysieren und interpretieren kann. Wie besagt, dient das Notebook als Hilfestellung, ist jedoch keinenfalls vollständig ausgeschöpft. In diesem Sinne dürft ihr auch gerne Sachen miteinbeziehen, welche hier nicht genannt werden. 

-> Bitte schreibt die Antwort zu den jeweiligen Punkten an oberster Stelle unterhalb der Titel (so wie dies auch im Leistungsnachweisbeispiel gemacht wurde).


## Struktur
1. Fragestellung(en) und Datenbeschaffung
2. Daten laden
3. Daten vorbereiten
4. Statistik der Rohdaten (Generell im Longformat)
5. Analyse der Daten

**Wichtig:** Alle graphischen Darstellungen sollten mindestens *Titel, Ticks- und Achsenbeschriftung* beinhalten (Siehe plots im Leistungsnachweisbeispiel)

---

## 1. Fragestellung(en) und Datenbeschaffung
**Gruppenmitglieder:** Molignini Alessia, Keel Noëlle, Stettler Sara
### 1.1 Titel: 
- "Übergewicht in verschiedenen Ländern"
### 1.2 Fragestellung:
- "Welche drei Länder zeigen im Zeitraum von 1996 bis 2016 die grösste Zunahme der Prävalenz von Übergewicht in der Gesamtbevölkerung, unabhänig vom Geschlecht?"
- "Wo steht die Schweiz in diesem Vergleich?"
- "Welche Unterschiede gibt es in diesen vier Ländern zwischen Mann und Frau?"
### 1.3 Datenquelle(n):
**Quellen:** 
- https://ourworldindata.org/grapher/obesity-in-men-vs-obesity-in-women
- https://ourworldindata.org/obesity (4. Darstellung,"What share of adults are obese?")

Beispiele für mögliche Datenquellen:
- https://ourworldindata.org
- https://healthdata.gov/
- https://www.who.int/data/collections
- https://www.kaggle.com/datasets?tags=4202-Healthcare




### 1.4 Daten beschaffen und laden

In [8]:
# lade deine Bibliotheken -> Pandas, Seaborn, Matplotlib sind die wichtigsten für diese Aufgaben

import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

In [9]:
df = pd.read_csv('share-of-adults-defined-as-obese.csv')

df.head()

Unnamed: 0,Entity,Code,Year,"Prevalence of obesity among adults, BMI >= 30 (crude estimate) (%) - Sex: both sexes - Age group: 18+ years"
0,Afghanistan,AFG,1975,0.4
1,Afghanistan,AFG,1976,0.4
2,Afghanistan,AFG,1977,0.5
3,Afghanistan,AFG,1978,0.5
4,Afghanistan,AFG,1979,0.5


In [10]:
df = pd.read_csv('share-of-adults-defined-as-obese.csv', skiprows=1,
                 names=['Land','Kürzel','Jahr','Übergewicht_Prävalenz_18+_unabhängig_Geschlecht'])

df.head()

Unnamed: 0,Land,Kürzel,Jahr,Übergewicht_Prävalenz_18+_unabhängig_Geschlecht
0,Afghanistan,AFG,1975,0.4
1,Afghanistan,AFG,1976,0.4
2,Afghanistan,AFG,1977,0.5
3,Afghanistan,AFG,1978,0.5
4,Afghanistan,AFG,1979,0.5


In [11]:
# lade hier deine Daten
df = pd.read_csv('obesity-in-men-vs-obesity-in-women.csv')

df.head()

Unnamed: 0,Entity,Code,Year,"Prevalence of obesity among adults, BMI >= 30 (age-standardized estimate) (%) - Sex: male - Age group: 18+ years","Prevalence of obesity among adults, BMI >= 30 (age-standardized estimate) (%) - Sex: female - Age group: 18+ years",World regions according to OWID
0,Afghanistan,AFG,1975,0.2,0.8,
1,Afghanistan,AFG,1976,0.2,0.8,
2,Afghanistan,AFG,1977,0.2,0.9,
3,Afghanistan,AFG,1978,0.2,0.9,
4,Afghanistan,AFG,1979,0.3,1.0,


In [12]:
df = pd.read_csv('obesity-in-men-vs-obesity-in-women.csv', skiprows=1,
                 names=['Land','Kürzel','Jahr','Übergewicht_Prävalenz_Männer_18+','Übergewicht_Prävalenz_Frauen_18+','Weltregionen_gemäss_OWID'])

df.head()

Unnamed: 0,Land,Kürzel,Jahr,Übergewicht_Prävalenz_Männer_18+,Übergewicht_Prävalenz_Frauen_18+,Weltregionen_gemäss_OWID
0,Afghanistan,AFG,1975,0.2,0.8,
1,Afghanistan,AFG,1976,0.2,0.8,
2,Afghanistan,AFG,1977,0.2,0.9,
3,Afghanistan,AFG,1978,0.2,0.9,
4,Afghanistan,AFG,1979,0.3,1.0,


## 2. Daten vorbereiten 
- Welches Format hat mein Datensatz bzw. wie sind meine Kolumnen strukturiert?
- Welches Format kann ich für welche Teilschritte verwenden (wann soll ich pivot bzw. wide format verwenden)?
- Welche Datentypen kommen in meinem Datensatz vor?

## 3. Statistik der Rohdaten (Analyse im Long-Format)
- Ist meine Variable kontinuierlich oder diskret? Falls diskret, wieviele einzigartige Klassen gibt es? Wieviele Datenpunkte pro Klasse sind vorhanden?
- Anzahl Datenpunkte (Beschreibend und Graphische Darstellung)
    - Wieviele Datenpunkte sind für die bestimmten Variabeln vorhanden?
    - Wo fehlen Datenpunkte?
- Wie ist die Verteilung der zu untersuchenden Variabel(n) (Histogram, Boxplot, Säulendiagram)
- Vermutest du Zusammenhänge zwischen zwei Variabeln (Streuungsdiagramm, Korrelationsmatrix)

*Notiz: Zu jeder Kolumne sollte generell eine Aussage möglich sein.*

## 4. Analyse 

### Vorgehen
- Spezifische Untersuchung der Fragestellung (Berechnungen)
- Visualisieren der Resultate: Verwendet Achsenbeschriftung und überlegt euch, welche Art von Darstellung sinnvoll ist (Kuchen-, Säulen, Liniendiagramm; 2 y-Achsen?)
- Beschreiben der Beobachtungen
- Interpretation der Resultate (Hypothesen zu den Resultaten)
- Untermauern der Interpretation mittels Hinweise zur Literatur (Mögliche Zusammenhänge aufzeigen).

