# Bearbeitungshinweise
Im Notebook werden verschiedene Fragestellungen an einem Datensatz untersucht. Die Aufgaben, die sie bearbeiten sollen, ergänzen diese Untersuchungen. Unter jeder Aufgabe befindet sich eine (Code-)Zelle, die etwa so aussieht:

In [None]:
# <IHRE LÖSUNG HIER>

Dort tragen Sie bitte ihren Python Code ein. Bei manchen Aufgaben wird auch kein Code verlangt, sondern eine (kurze) Erklärung. In diesem Fall konvertieren Sie die Zelle bitte zu einer Markdown-Zelle ("Esc" und dann "M" drücken - "Esc" und dann "Y" konvertiert wieder zu einer Code-Zelle) und tragen dort Ihre Antwort ein.

**Abgabe**: Um die Übung anerkannt zu bekommen, gehen Sie am besten während des Tutoriums zu einem der Tutoren und zeigen ihm/ihr das vollständig bearbeitete Notebook. Generell haben Sie im Tutorium auch die Möglichkeit, sich bei den Übungen helfen zu lassen. Wenn die Antworten weitgehend richtig sind (ggf. können Sie Ihre Antworten noch einmal korrigieren), bekommen Sie die Übung anerkannt (es gibt keine Punkte, sondern nur bestanden / nicht bestanden). Sollten Sie während des Tutoriums keine Zeit haben, schicken Sie das Notebook bitte *rechtzeitig* per Email an die Tutoren und machen eine (Online-)Termin zur Besprechung.

---

# Übung 1: Einführung in das Thema Daten
Manche definieren **Statistik** als die Disziplin, bei der es darum geht, Informationen in Wissen zu verwandeln. Der erste Schritt in diesem Prozess ist die Zusammenfassung und Beschreibung der Rohinformationen - der Daten. In dieser Übung erhalten Sie einen Einblick in die öffentliche Gesundheit, indem Sie einfache grafische und numerische Zusammenfassungen eines Datensatzes erstellen, der von den Centers for Disease Control and Prevention (CDC) gesammelt wurde.

## Erste Schritte

Das Behavioral Risk Factor Surveillance System (BRFSS) ist eine jährliche Telefonumfrage bei 350 000 Personen in den Vereinigten Staaten. Wie der Name schon sagt, dient das BRFSS der Ermittlung von Risikofaktoren in der erwachsenen Bevölkerung und der Meldung neuer Gesundheitstrends. So werden die Befragten beispielsweise nach ihrer Ernährung und ihrer wöchentlichen körperlichen Aktivität, ihrem HIV/AIDS-Status, möglichem Tabakkonsum und nach ihrem Krankenversicherungsschutz gefragt. Die [Website] der BRFSS (http://www.cdc.gov/brfss) enthält eine vollständige Beschreibung der Erhebung, einschließlich der Forschungsfragen, die der Studie zugrunde liegen, und vieler interessanter Ergebnisse, die aus den Daten abgeleitet wurden.

Wir werden uns auf eine Zufallsstichprobe von 20.000 Personen aus der BRFSS-Erhebung aus dem Jahr 2000 konzentrieren. Obwohl dieser Datensatz über 200 Variablen enthält, werden wir mit einer kleinen Teilmenge arbeiten.

Wir beginnen mit dem Einlesen des Datensatzes von 20.000 Beobachtungen aus einer csv-Datei.

In [None]:
import numpy as np
import pandas as pd

cdc = pd.read_csv("Daten/brfss_2000.csv")
cdc.shape

In [None]:
cdc.sample(10, random_state=999)

Der angezeigte Datensatz "cdc" ist ein Pandas DataFrame, bei dem jede Zeile für einen Fall und jede Spalte für eine Variable steht. Wir werden in den Übungen sehr viel mit DataFrames arbeiten.

Um die Namen der Variablen zu sehen, verwenden Sie "columns.values".

In [None]:
cdc.columns.values

Dies gibt die Namen `genhlth`, `exerany`, `hlthplan`, `smoke100`, `height`, `weight`, `wtdesire`, `age`, und `gender` zurück. Jede dieser Variablen entspricht einer Frage, die in der Erhebung gestellt wurde. Für die Variable `genhlth` wurden die Befragten beispielsweise gebeten, ihren allgemeinen Gesundheitszustand zu bewerten und entweder mit "ausgezeichnet", "sehr gut", "gut", "mittelmäßig" oder "schlecht" zu antworten. Die Variable `exerany` ("exercise any") gibt an, ob der Befragte im letzten Monat Sport getrieben hat (1) oder nicht (0). Ebenso gibt die Variable `hlthplan` an, ob der Befragte in irgendeiner Form krankenversichert war (1) oder nicht (0). Die Variable `smoke100` gibt an, ob die befragte Person in ihrem Leben mindestens 100 Zigaretten geraucht hat. Die anderen Variablen erfassen die Größe in Zoll (`height`), das Gewicht in Pfund (`weight`) sowie das Wunschgewicht (`wtdesire`), das Alter in Jahren (`age`) und das Geschlecht der Befragten (`gender`).

### ✏️ Aufgabe 1
Wie viele Fälle sind in diesem Datensatz enthalten? Wie viele Variablen? Geben Sie für jede Variable ihren Datentyp an (z. B. kategorisch, diskret).

In [None]:
# <IHRE LÖSUNG HIER>

Wir können uns die ersten Einträge (Zeilen) unserer Daten mit dem folgenden Befehl ansehen

In [None]:
cdc.head()

und in ähnlicher Weise können wir uns die letzten ansehen, indem wir sie eingeben

In [None]:
cdc.tail()

Wenn Sie den Namen des DataFrame in eine Zelle eingeben, werden (je nach Einstellung des Jupyter Notebook Umgebung) die ersten und letzten Zeilen des DataFrames angezeigt.

In [None]:
cdc

## Statistiken und Kennzahlen

Der BRFSS-Fragebogen ist eine riesige Fundgrube an Informationen. Ein guter erster Schritt bei jeder Analyse besteht darin, all diese Informationen in ein paar zusammenfassende Statistiken und Grafiken zu destillieren. Als einfaches Beispiel liefert die Funktion `describe` eine numerische Zusammenfassung: Häufigkeiten, Mittelwert, Standardabweichung, Minimum, erstes Quartil, Median, drittes Quartil und Maximum. Für `weight` ("Gewicht") ist dies

In [None]:
cdc['weight'].describe()

Wenn Sie den Interquartilsabstand für das Gewicht der Befragten berechnen wollen, könnten Sie sich die Ausgabe des obigen Zusammenfassungsbefehls ansehen und dann Folgendes eingeben

In [None]:
190 - 140

Python (bzw. Pandas) verfügt auch über eingebaute Funktionen, um zusammenfassende Statistiken nacheinander zu berechnen.

In [None]:
print('count:', cdc['weight'].count())
print('mean: ', cdc['weight'].mean())
print('std:  ', cdc['weight'].std())
print('var:  ', cdc['weight'].var())
print('min:  ', cdc['weight'].min())
print('25%:  ', cdc['weight'].quantile(0.25))
print('50%:  ', cdc['weight'].median())  # Erinnerung: der Median ist auch das zweite Quartil 
print('75%:  ', cdc['weight'].quantile(0.75))
print('max:  ', cdc['weight'].max())

Es ist zwar sinnvoll, eine quantitative Variable wie `weight` mit Hilfe dieser Statistiken zu beschreiben, aber was ist mit kategorialen Daten? Wir würden stattdessen die Stichprobenhäufigkeit oder die relative Häufigkeitsverteilung betrachten. Die Funktion `value_counts` erledigt dies für Sie, indem sie die Häufigkeiten der einzelnen Antworttypen zählt. Um zum Beispiel die Anzahl der Personen zu ermitteln, die in ihrem Leben 100 Zigaretten geraucht haben, geben Sie ein

In [None]:
cdc['smoke100'].value_counts()

oder sehen Sie sich stattdessen die relative Häufigkeitsverteilung an durch Eingabe von

In [None]:
cdc['smoke100'].value_counts(normalize = True)

Beachten Sie, dass Python automatisch die relativen Häufigkeitsverteilungen anzeigt, indem es den Parameter `normalize` auf `True` setzt.

## Diagramme erzeugen
Es gibt verschiedene Wege, Diagramme in Python zu erzeugen. Wir benutzen das Modul `plotly` (https://plotly.com/python/), bzw. dessen Submodul `plotly.express` (https://plotly.com/python/plotly-express/), mit dem die gängingsten Diagramme über eine einfache, konsistente Schnittstelle erzeugt werden können. 

Das generelle Vorgehen zur Verwendung von Modulen in Python ist

Die binäre Variable `smoke100` stellen wir mit einem Säulendiagramm dar. Wir erzeugen es mit der Funktion `bar`.

In [None]:
# Die folgenden beiden Zeilen müssen nur ausgeführt werden, wenn das Notebook im Browser mit JupyterLite bearbeitet wird!
import piplite
await piplite.install(["plotly"])

import plotly.express as px

px.bar(cdc['smoke100'].value_counts(), title = 'Säulendiagramm von smoke100')

Plotly hat ein Balkendiagramm erzeugt! Sie könnten dies auch in zwei Schritte aufteilen, indem Sie Folgendes eingeben:

In [None]:
smoke = cdc['smoke100'].value_counts()
px.bar(smoke, title = 'Säulendiagramm von smoke100')

Hier haben wir ein neues Objekt mit dem Namen `smoke` erstellt (dessen Inhalt wir sehen können, wenn wir `smoke` in die Konsole eingeben) und es dann als Eingabe für `px.bar` verwendet.

Die Achsenbeschriftungen `index` und `value` leitet plotly aus dem übergebenen Objekt `cdc['smoke100'].value_counts()` ab. Über das  Argument `labels` können Sie Aliase dafür übergeben. Diese werden dann als Achsenbeschriftung dargestellt. 

In [None]:
px.bar(smoke, title = 'Säulendiagramm von smoke100', labels={"index": "100 Zigaretten geraucht?", "value": "Anzahl"})

Schließlich können Sie die Größe der Figur in Pixeln über die Parameter `width` und `height` festlegen:

In [None]:
px.bar(smoke, title = 'Säulendiagramm von smoke100', labels={"index": "100 Zigaretten geraucht?", "value": "Anzahl"}, width=500, height=400)

### ✏️ Aufgabe 2
Erstellen Sie eine numerische Zusammenfassung für `height` und `age` und berechnen Sie jeweils den Interquartilsabstand. Berechnen Sie die relative Häufigkeitsverteilung für `gender` und `exerany`. Wie viele Männer sind in der Stichprobe? Welcher Anteil der Stichprobe gibt an, bei bester Gesundheit zu sein?

In [None]:
# <IHRE LÖSUNG HIER>

Der Befehl `value_counts()` mit `groupby` kann verwendet werden, um eine beliebige Anzahl von Variablen zu tabellieren, die Sie angeben. Um zum Beispiel zu untersuchen, welche Teilnehmer jedes Geschlechts geraucht haben, könnten wir Folgendes verwenden:

In [None]:
smoke_by_gender = cdc.groupby('gender')['smoke100'].value_counts(normalize = True).unstack()
smoke_by_gender

Was passiert bei der Verkettung
> `cdc.groupby('gender')['smoke100'].value_counts(normalize = True).unstack()` 

im Detail?
1. `cdc.groupby('gender')`: gruppiert den Datensatz nach Ausprägungen von `gender` (wie ein `group by`-clause in SQL).
2. `['smoke100']`: Wählt aus dem gruppierten Datensatz die Spalte `smoke100` aus.
3. `.value_counts(normalize = True)`: Aggregation auf dem gruppierten Datensatz. Hier: relative Häufigkeitsverteilung pro Gruppe (m/w).
4. `.unstack()`: `value_counts` auf einem gruppierten Datensatz gibt einen mehrstufigen Index zurück (jedes Element wird mit einem Tupel indiziert); mit `unstack` wird die zweite (=letzte) Komponente des Index (`smoke100`) als Spalte aufgefasst.

Zur Erinnerung: Die Spaltenbezeichnung 1 bedeutet, dass der Befragte mindestens 100 Zigaretten geraucht hat. Die Zeilen beziehen sich auf das Geschlecht. 

Zusammenhänge zwischen diesen Merkmalen kann man z.B. als gestapeltes Balkendiagramm visualisieren. Per default interpretiert plotly jede Zeile als eine Säule. Der Wert jeder Spalte wird in einer anderen Farbe angezeigt und zur Gesamthöhe "gestapelt".

In [None]:
px.bar(smoke_by_gender)

# Äquivalent (so interpretiert plotly den knappen Befehl oben):
# px.bar(smoke_by_gender, x=smoke_by_gender.index, y=[0,1])

### ✏️ Aufgabe 3
Was verrät der das Diagramm über Rauchgewohnheiten und Geschlecht?

In [None]:
# <IHRE LÖSUNG HIER>

## Einschub: Wie Pandas mit Daten umgeht

DataFrames sind wie eine Art Tabelle. Jede Zeile ist eine andere Beobachtung (ein anderer Befragter) und jede Spalte eine andere Variable (die erste ist `genhlth`, die zweite `exerany` und so weiter). Wir können die Größe des DataFrame sehen, indem wir Folgendes eingeben

In [None]:
cdc.shape

was die Anzahl der Zeilen und Spalten zurückgibt. Wenn wir nun auf eine Teilmenge des vollständigen DataFrame zugreifen möchten, können wir die Zeilen- und Spaltenschreibweise verwenden. Um zum Beispiel die sechste Variable des 567. Befragten zu sehen, verwenden Sie das Format

In [None]:
cdc.iloc[566, 5] 

was uns das Gewicht der 567. Person (oder Beobachtung) liefert. Denken Sie daran, dass in Python die Indizierung bei 0 beginnt, so dass das erste Element einer Liste oder eines DataFrame durch den 0-ten Index ausgewählt wird.

Um die Gewichte für die ersten 10 Befragten zu sehen, können wir eingeben

In [None]:
cdc.iloc[0:10, 5]  # Achtung: der letzte Index (hier: 10) ist in Python ausgeschlossen.

Wenn wir schließlich alle Daten für die ersten 10 Befragten haben möchten, geht das mit

In [None]:
cdc.iloc[0:10,]

Indem wir einen Index oder einen Bereich weglassen (wir haben nichts zwischen dem Komma und der eckigen Klammer eingegeben), erhalten wir alle Spalten. In der Regel lassen wir die Spaltennummer weg, um alle Spalten in einem DataFrame zu sehen. Um auf alle Beobachtungen zuzugreifen, lassen Sie einfach einen Doppelpunkt innerhalb der Klammer stehen. Probieren Sie Folgendes aus, um die Gewichte für alle 20.000 Befragten auf Ihrem Bildschirm zu sehen

In [None]:
cdc.iloc[:, 5]

Erinnern Sie sich, dass die sechste Spalte das Gewicht der Befragten darstellt, so dass der obige Befehl alle Gewichte im Datensatz meldet. Eine alternative Methode für den Zugriff auf die Gewichtsdaten ist der Verweis auf den Namen. Zuvor gaben wir `cdc` ein, um alle im cdc-Datensatz enthaltenen Variablen anzuzeigen. Wir können jeden der Variablennamen verwenden, um Elemente in unserem Datensatz auszuwählen.

In [None]:
cdc['weight']

Damit wird Python angewiesen, im DataFrame `cdc` nach der Spalte `weight` zu suchen. Da es sich um einen einzelnen Vektor handelt, können wir ihn durch Hinzufügen eines weiteren Indexes in eckigen Klammern auf Teilmengen zugreifen. Wir sehen das Gewicht für den 567. Befragten, indem wir eingeben

In [None]:
cdc['weight'][566]

Ähnliches gilt für die ersten 10 Befragten

In [None]:
cdc['weight'][0:10]

Der obige Befehl liefert das gleiche Ergebnis wie der Befehl `cdc.iloc[0:10, 5]`.

## Näheres zum Indizieren von DataFrames

Oft ist es sinnvoll, alle Personen (Fälle) in einem Datensatz zu extrahieren, die bestimmte Merkmale aufweisen. Dies erreichen wir durch Bedingungen. Betrachten Sie zunächst Ausdrücke wie

In [None]:
cdc['gender'] == 'm'

oder

In [None]:
cdc['age'] > 30

Diese Befehle erzeugen eine Series von `TRUE`- und `FALSE`-Werten. Für jeden Befragten gibt es einen Wert, wobei `TRUE` anzeigt, dass die Person männlich (über den ersten Befehl) oder älter als 30 Jahre (zweiter Befehl) war.

Angenommen, wir möchten nur die Daten für die Männer in der Stichprobe oder nur für die über 30-Jährigen extrahieren. Zum Beispiel erzeugt der Befehl

In [None]:
mdata = cdc[cdc['gender'] == 'm']

einen neuen Datensatz namens `mdata`, das nur die Männer des `cdc` Datensatzes enthält. Sie können wie gewohnt einen Blick auf die ersten Zeilen werfen:

In [None]:
mdata.head()

Wir können die Daten auf der Grundlage der Werte einer oder mehrerer Variablen zurechtschneiden. Wir können mehrere dieser Bedingungen mit `&` und `|` verknüpfen. Das `&` wird als "und" gelesen, so dass

In [None]:
m_and_over30 = cdc[(cdc['gender'] == 'm') & (cdc['age'] > 30)]
m_and_over30.head()

die Daten für Männer über 30 Jahren liefert. Das `|` wird als "oder" gelesen, so dass

In [None]:
m_or_over30 = cdc[(cdc['gender'] == 'm') | (cdc['age'] > 30)]
m_or_over30.head()

die Personen auswählt, die männlich oder über 30 Jahre alt sind (warum das eine interessante Gruppe ist, ist schwer zu sagen; hier steht eher die Mechanik dieses Befehls im Vordergrund). Im Prinzip können Sie so viele "und"- und "oder"-Klauseln verwenden, wie Sie wollen, wenn Sie eine Teilmenge bilden.

### ✏️ Aufgabe 4
Erstellen Sie ein neues Objekt namens `under23_and_smoke`, das alle Beobachtungen von Befragten unter 23 Jahren enthält, die in ihrem Leben 100 Zigaretten geraucht haben.

In [None]:
# <IHRE LÖSUNG HIER>

## Quantitative Daten

Mit unseren Subsetting-Tools in der Hand kehren wir nun zur Aufgabe des Tages zurück: der Erstellung grundlegender Zusammenfassungen des BRFSS-Fragebogens. Wir haben uns bereits mit kategorischen Daten wie `smoke100` und `gender` befasst, also wenden wir uns jetzt den quantitativen Daten zu. Zwei gängige Methoden zur Visualisierung quantitativer Daten sind **Box-Plots** und **Histogramme**. Mit dem folgenden Befehl können wir ein Boxplot für eine einzelne Variable erstellen.

In [None]:
px.box(cdc['height'], title = 'Boxplot of height', width=500, height=500)

Anhand der zusammenfassenden Statistiken können wir die Lage der einzelnen Komponenten der Box vergleichen ("Fünf-Punkte-Zusammenfassung"). Diese sehen Sie auch, wenn Sie die Maus über den Plot bewegen.

In [None]:
cdc['height'].describe()

Vergewissern Sie sich, dass der Median sowie das obere und untere Quartil in der numerischen Zusammenfassung mit denen im Diagramm übereinstimmen. Der Zweck eines Boxplots besteht darin, eine Miniaturskizze einer Variablen zu erstellen, um sie über mehrere Kategorien hinweg zu vergleichen. So können wir zum Beispiel die Körpergröße von Männern und Frauen vergleichen mit

In [None]:
px.box(data_frame=cdc, x="gender", y="height", title = 'Boxplot of height by gender', width=700, height=500)

Hier benutzen wir einen weitere komfortable Funktionalität von plotly: Über das Argument `data_frame=cdc` übergeben wir den gesamten DataFrame. Für die Argumente `x=` und `y=` braucht man dann nur die entsprechenden Spaltennamen des DataFrames anzugeben.

Betrachten wir nun eine neue Variable, die in diesem Datensatz nicht direkt auftaucht: Body Mass Index ([BMI](http://en.wikipedia.org/wiki/Body_mass_index)). Der BMI ist ein Verhältnis zwischen Gewicht und Größe und kann wie folgt berechnet werden:

**BMI** = $\displaystyle\frac{mass_{kg}}{height^2_{m}} = \frac{mass_{lb}}{height^2_{in}}\times703$

703 ist der ungefähre Umrechnungsfaktor für die Umrechnung von metrischen Einheiten (Meter und Kilogramm) in imperiale Einheiten (Zoll und Pfund).

In den folgenden beiden Zeilen wird zunächst ein neues Objekt mit dem Namen `bmi` erstellt und dann ein Boxplot dieser Werte erstellt, wobei die Gruppen durch die Variable `genhlth` definiert werden.

In [None]:
bmi = (cdc['weight'] / (cdc['height'])**2) * 703

Beachten Sie, dass dies eine Berechnung ist, die auf alle 20.000 Zahlen im `cdc`-Datensatz angewendet wird. Das heißt, für jeden der 20.000 Teilnehmer nehmen wir sein Gewicht, teilen es durch seine Größe im Quadrat und multiplizieren es dann mit 703. Das Ergebnis sind 20.000 BMI-Werte, einer für jeden Befragten.

Auch hier übergeben wir plotly den gesamten DataFrame als Argument. Die Argumente `x=` und `y=` können sich entweder auf Spalten dieses Datensatzes beziehen oder aber man übergibt darin weitere Daten (hier: die Werte `bmi`). 

In [None]:
px.box(data_frame=cdc, x="genhlth", y=bmi, title = 'Boxplot of height by gender', width=700, height=500)

### ✏️ Aufgabe 5
Was sagt dieser Boxplot aus? Wählen Sie eine andere kategoriale Variable aus dem Datensatz und untersuchen Sie, wie sie mit dem BMI zusammenhängt. Führen Sie die von Ihnen gewählte Variable auf, begründen Sie, warum Sie einen Zusammenhang mit dem BMI vermuten, und geben Sie an, worauf die Abbildung hinzudeuten scheint.

In [None]:
# <IHRE LÖSUNG HIER>

Zum Schluss wollen wir noch einige Histogramme erstellen. Wir können schauen uns das Histogramm für das Alter unserer Befragten mit folgendem Befehl an:

In [None]:
px.histogram(data_frame=cdc, x="age")

Histogramme sind im Allgemeinen eine sehr gute Möglichkeit, die Form einer univariaten Verteilung zu erkennen, aber diese Form kann sich ändern, je nachdem, wie die Daten auf die verschiedenen Bins aufgeteilt sind. Sie können die Anzahl der Bins steuern, indem Sie das Argument `nbins=` übergeben (nicht wundern, wenn die tatsächliche Anzahl bins im Plot niedriger ist: plotly legt die endgültige Anzahl bins durch einen internen Algorithmus fest). Als nächstes wird zunächst ein Standardhistogramm von "bmi" und dann eines mit einer mit 50 Bins erstellt.

In [None]:
px.histogram(bmi, title = 'Histogram of BMI')

In [None]:
px.histogram(bmi, nbins=50, title = 'Histogram of BMI (with 50 bins)')

### ✏️ Aufgabe 6
Was fällt Ihnen beim Vergleich dieser beiden Histogramme auf? (kurze Beschreibung in Worten)

In [None]:
# <IHRE LÖSUNG HIER>

---

Wir haben nun einen guten ersten Versuch unternommen, die Informationen aus dem BRFSS-Fragebogen zu analysieren. Wir haben einen interessanten Zusammenhang zwischen Rauchgewohnheiten und Geschlecht gefunden, und wir können etwas über die Beziehung zwischen der Einschätzung des allgemeinen Gesundheitszustands der Menschen und ihrem eigenen BMI sagen. Wir haben auch wichtige Tools kennengelernt - zusammenfassende Statistiken, Untergruppen und Diagramme -, die wir in diesem Kurs gut gebrauchen können.

## ✏️ Weitere Aufgaben

### ✏️ Aufgabe 7
Erstellen Sie ein Streudiagramm von Gewicht (`weight`) und Wunschgewicht (`wtdesire`). Benutzen Sie dafür den Befehl `px.scatter`. Beschreiben Sie (in Worten) die Beziehung zwischen diesen beiden Variablen.

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 8
Betrachten Sie eine neue Variable: die Differenz zwischen dem gewünschten Gewicht (`wtdesire`) und dem aktuellen Gewicht (`weight`). Erstellen Sie diese neue Variable, indem Sie die beiden Spalten im DataFrame subtrahieren und sie einem neuen Objekt namens `wdiff` zuweisen.

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 9
Von welchem Merkmalstyp ist `wdiff`? Wenn eine Beobachtung `wdiff` gleich 0 ist, was bedeutet dies über das Gewicht und das Wunschgewicht der Person. Was ist, wenn `wdiff` positiv oder negativ ist?

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 10
Beschreiben Sie die Verteilung von `wdiff` im Hinblick auf ihr Zentrum, ihre Form und ihre Streuung, einschließlich der von Ihnen verwendeten Diagramme. Was sagt dies darüber aus, wie die Menschen ihr aktuelles Gewicht einschätzen?

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 11
Bestimmen Sie anhand von numerischen Zusammenfassungen und einem Boxplot, ob Männer dazu neigen, ihr Gewicht anders zu sehen als Frauen.

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 12
Berechnen Sie den Mittelwert und die Standardabweichung von `weight` und bestimmen Sie, welcher Anteil der Gewichte innerhalb von einer Standardabweichung vom Mittelwert liegt.

In [None]:
# <IHRE LÖSUNG HIER>

---

Diese Übung ist eine deutsche Übersetzung der Übungen aus OpenIntro Statistics von Andrew Bray und Mine Çetinkaya-Rundel (https://www.openintro.org/book/os/). Die Python Adaption stammt von David Akman und Imran Ture (www.featureranking.com).