# Bearbeitungshinweise
Im Notebook werden verschiedene Fragestellungen an einem Datensatz untersucht. Die Aufgaben, die sie bearbeiten sollen, ergänzen diese Untersuchungen. Unter jeder Aufgabe befindet sich eine (Code-)Zelle, die etwa so aussieht:

In [None]:
# <IHRE LÖSUNG HIER>

Dort tragen Sie bitte ihren Python Code ein. Bei manchen Aufgaben wird auch kein Code verlangt, sondern eine (kurze) Erklärung. In diesem Fall konvertieren Sie die Zelle bitte zu einer Markdown-Zelle ("Esc" und dann "M" drücken - "Esc" und dann "Y" konvertiert wieder zu einer Code-Zelle) und tragen dort Ihre Antwort ein.

**Abgabe**: Um die Übung anerkannt zu bekommen, gehen Sie am besten während des Tutoriums zu einem der Tutoren und zeigen ihm/ihr das vollständig bearbeitete Notebook. Generell haben Sie im Tutorium auch die Möglichkeit, sich bei den Übungen helfen zu lassen. Wenn die Antworten weitgehend richtig sind (ggf. können Sie Ihre Antworten noch einmal korrigieren), bekommen Sie die Übung anerkannt (es gibt keine Punkte, sondern nur bestanden / nicht bestanden). Sollten Sie während des Tutoriums keine Zeit haben, schicken Sie das Notebook bitte *rechtzeitig* per Email an die Tutoren und machen eine (Online-)Termin zur Besprechung.

---

# Übung 4: Die Normalverteilung

In dieser Übung werden wir die wichtigste Wahrscheinlichkeitsverteilung untersuchen: die Normalverteilung. Wenn wir sicher sind, dass unsere Daten annähernd normal sind, können wir viele leistungsstarke statistischen Methoden einsetzen, die es uns erlauben Schlüsse über die Daten hinaus zu ziehen. Hier werden wir grafische Werkzeuge verwenden, um die Normalität eines Datensatzes zu beurteilen und lernen, wie man Zufallszahlen aus einer Normalverteilung erzeugt.

## Die Daten

In dieser Übung werden Sie mit Fast-Food-Daten arbeiten. Der Datensatz enthält Daten zu 515 Produkten von einigen beliebten Fast-Food-Restaurants. Werfen wir einen kurzen Blick auf die ersten Zeilen der Daten.

In [None]:
# Die folgenden beiden Zeilen müssen nur ausgeführt werden, wenn das Notebook im Browser mit JupyterLite bearbeitet wird!
#import piplite
#await piplite.install(["plotly"])

import numpy as np
import pandas as pd
import plotly.express as px

fastfood = pd.read_csv("Daten/fastfood.csv")
fastfood

Sie werden sehen, dass es für jede Beobachtung 17 Messungen gibt, von denen viele Nährwertangaben sind.

Für den Anfang werden Sie sich nur auf drei Spalten konzentrieren: `restaurant`, `calories` (Kalorien), `cal_fat` (Kalorien aus Fett).

Konzentrieren wir uns zunächst nur auf die Produkte von McDonalds und Dairy Queen.

In [None]:
mcdonalds = fastfood[fastfood["restaurant"] == "Mcdonalds"]
dairy_queen = fastfood[fastfood["restaurant"] == "Dairy Queen"]

### ✏️ Aufgabe 1
Erstellen Sie ein Diagramm (oder mehrere Diagramme), um die Verteilungen der Kalorienmenge aus Fett (`cal_fat`) der Optionen dieser beiden Restaurants zu visualisieren. Beschreiben sie die Mittelpunkte, Form und Streuung für beide Restaurants.

In [None]:
# <IHRE LÖSUNG HIER>

## Die Normalverteilung

Haben Sie in Ihrer Beschreibung der Verteilungen Begriffe wie glockenförmig oder normal verwendet? Diese Begriffe liegen nahe, wenn es sich um eine unimodale (eingipflige) symmetrische Verteilung handelt.

Um zu sehen, wie genau diese Beschreibung ist, können wir eine Normalverteilungskurve über ein Histogramm legen, um zu sehen, wie genau die Daten einer Normalverteilung folgen. Diese Normalkurve sollte den gleichen Mittelwert und die gleiche Standardabweichung wie die Daten haben. Wir werden uns auf die Kalorien aus Fett von Dairy Queen-Produkten konzentrieren, also speichern wir sie als separates Objekt und berechnen dann einige Statistiken, auf die wir später zurückgreifen werden.

In [None]:
dqmean = dairy_queen['cal_fat'].mean()
dqsd = dairy_queen['cal_fat'].std()

Als Nächstes erstellen wir ein Dichtehistogramm, das als Hintergrund dient, und legen darüber die Kurve der Wahrscheinlichkeitsdichte einer Normalverteilung. Der Unterschied zwischen einem Häufigkeitshistogramm und einem Dichtehistogramm besteht darin, dass sich bei einem Häufigkeitshistogramm die *Höhe* der Balken zur Gesamtzahl der Beobachtungen addiert, während sich bei einem Dichtehistogramm die *Fläche* der Balken zu 1 addiert. Die Fläche jedes Balkens kann einfach als die Höhe mal die Breite des Balkens berechnet werden. Die Verwendung eines Dichtehistogramms ermöglicht es, eine Normalverteilungskurve über das Histogramm zu legen, da die Kurve eine Wahrscheinlichkeitsdichtefunktion ist, die ebenfalls eine Fläche unter der Kurve von 1 hat. Häufigkeits- und Dichtehistogramme haben genau dieselbe Form; sie unterscheiden sich nur in ihrer y-Achse. Sie können dies überprüfen, indem Sie das Häufigkeitshistogramm, das Sie zuvor erstellt haben, mit dem Dichtehistogramm vergleichen, das mit den folgenden Befehlen erstellt wurde.

In [None]:
px.histogram(dairy_queen['cal_fat'], histnorm="probability density")

Als nächstes möchten wir die Dichtekurve der Normalverteilung mit den Parametern $\mu=$`dqmean` und $\sigma=$`dqstd` erzeugen und zum Plot hinzufügen. Zunächst erstellen wir die x- und y-Koordinaten für die Normalkurve. Wir haben den x-Bereich mit 0 bis 700 gewählt, um den gesamten Wertebereich der Variable `cal_fat` abzudecken. Die Funktionswerte erzeugen wir uns mit der Funktion `norm.pdf` aus dem Modul `scipy.stats` (pdf steht hier für probability density function).

In [None]:
from scipy.stats import norm

# Erzeuge einen Vektor mit 101 äquidistanten Samples zwischen 0 und 700 
x = np.linspace(0, 700, 101)       
y = norm.pdf(x, loc = dqmean, scale = dqsd)

Nun möchten wir die Dichtefunktion als Linie zum Histogrammplot hinzufügen. Dazu speichern wir zunächst den Histogrammplot in einer Variable und fügen dann die Dichtekurve hinzu. Dies geschieht in plotly mittels `add_scatter` (eigentlich ein Streuplot, der aber hier als Linie dargestellt wird)

In [None]:
hist = px.histogram(dairy_queen['cal_fat'], histnorm="probability density")
hist.add_scatter(x=x, y=y, name=f"Dichtekurve der Normalverteilung")
hist.show()

### ✏️ Aufgabe 2
Sieht es so aus, als ob die Daten einer annähernden Normalverteilung folgen?

In [None]:
# <IHRE LÖSUNG HIER>

## Auswertung der Normalverteilung

Ein Blick auf die Form des Histogramms ist eine Möglichkeit, um festzustellen, ob die Daten annähernd normalverteilt sind, aber es kann sehr schwierig bzw. unklar sein, zu entscheiden, wie nahe das Histogramm an der Kurve liegt. Ein alternativer Ansatz besteht darin, ein normales Wahrscheinlichkeitsdiagramm zu erstellen, das auch als normales Q-Q-Diagramm für "Quantil-Quantil" bezeichnet wird.

In [None]:
from scipy.stats import probplot

(Q_x, Q_y) = probplot(dairy_queen['cal_fat'], fit=False)
px.scatter(x=Q_x, y=Q_y, trendline="ols")

Die Werte auf der x-Achse entsprechen den Quantilen einer theoretischen Normalkurve mit Mittelwert 0 und Standardabweichung 1 (d. h. der Standardnormalverteilung). Die Werte auf der y-Achse entsprechen den Quantilen der ursprünglichen, nicht standardisierten Stichprobendaten. Aber auch wenn wir die Stichprobendatenwerte standardisieren würden, sähe die Q-Q-Kurve identisch aus. Ein nahezu normaler Datensatz führt zu einem Wahrscheinlichkeitsdiagramm, bei dem die Punkte eng an einer diagonalen Linie liegen. Jede Abweichung von der Normalität führt zu einer Abweichung der Punkte von dieser Linie.

Das Diagramm für die Kalorien aus Fett von Dairy Queen zeigt Punkte, die tendenziell der Linie folgen, aber mit einigen abweichenden Punkten am oberen Ende. Hier stellt sich das gleiche Problem wie beim obigen Histogramm: Wie nah ist nah genug?

Diese Frage lässt sich sinnvollerweise folgendermaßen umformulieren: Wie sehen Wahrscheinlichkeitsdiagramme für Daten aus, von denen ich *weiß*, dass sie aus einer Normalverteilung stammen? Wir können diese Frage beantworten, indem wir Daten aus einer Normalverteilung mit `np.random.norm` simulieren.

In [None]:
sim_norm = np.random.normal(size = len(dairy_queen['cal_fat']), loc = dqmean, scale = dqsd)

Das erste Argument gibt an, wie viele Zahlen Sie generieren möchten. Wir geben an, dass dies die gleiche Anzahl von Produkten im dairy_queen-Datensatz ist, indem wir die Funktion `len()` verwenden. Die letzten beiden Argumente (`loc` and `scale`) bestimmen den Mittelwert und die Standardabweichung der Normalverteilung, aus der die simulierte Stichprobe erzeugt wird. Wir können uns die Form unseres simulierten Datensatzes, `sim_norm`, sowie die Darstellung der Normalwahrscheinlichkeit ansehen.

### ✏️ Aufgabe 3
Erstellen Sie ein Normalwahrscheinlichkeitsdiagramm (Q-Q-Diagramm) von `sim_norm`. Fallen alle Punkte auf die Linie? Wie verhält sich diese Darstellung im Vergleich zur Wahrscheinlichkeitsdarstellung für die realen Daten?

In [None]:
# <IHRE LÖSUNG HIER>

Noch besser als der Vergleich des ursprünglichen Diagramms mit einem einzelnen Diagramm, das aus einer Normalverteilung generiert wurde, ist der Vergleich mit vielen weiteren Diagrammen, bei denen zufällig Daten aus einer Normalverteilung generiert wurden. Der folgende Code generiert 9 Plots: in der linken oberen Ecke sieht man den Q-Q-Plot, die den Originaldaten entspricht. Die restlichen Plots zeigen Q-Q-Plots von 8 verschiedenen simulierten *normalverteilten* Daten. Je nachdem, welches Gerät sie benutzen, kann es sinnvoll sein, die Parameter `width` und `height` zu modifizieren oder die Zoom Funktionalität von plotly zu benutzen.

In [None]:
(Q_x, Q_y) = probplot(dairy_queen['cal_fat'], fit=False)

sim_qq_data = [pd.DataFrame({"Q_x": Q_x, "Q_y": Q_y, "sample": "data"})]
for i in range(8):
    sim_norm = np.random.normal(size = len(dairy_queen['cal_fat']), loc = dqmean, scale = dqsd)
    (Q_x, Q_y) = probplot(sim_norm, fit=False)
    sim_qq_data.append( pd.DataFrame({"Q_x": Q_x, "Q_y": Q_y, "sample": str(i+1)}) )
sim_qq_data = pd.concat(sim_qq_data)

px.scatter(sim_qq_data, x="Q_x", y="Q_y", facet_col="sample", facet_col_wrap=3, trendline="ols", width=800, height=800)

### ✏️ Aufgabe 4
Sieht der Q-Q-Plot für `dairy_queen['cal_fat']` ähnlich aus wie die Darstellungen für die simulierten Daten? Das heißt, liefern die Diagramme Hinweise darauf, dass `dairy_queen['cal_fat']` nahezu normalverteilt ist?

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 5
Bestimmen Sie mit der gleichen Technik, ob die Kalorien aus dem McDonald's-Menü (Spalte `calories`) einer Normalverteilung zu entstammen scheinen oder nicht.

In [None]:
# <IHRE LÖSUNG HIER>

## Wahrscheinlichkeiten von Normalverteilungen

Sie haben nun einige Werkzeuge, um zu beurteilen, ob eine Variable normalverteilt ist oder nicht. Warum sollte uns das interessieren?

Es stellt sich heraus, dass man in der Statistik viel über die Normalverteilung weiß. Sobald man feststellt, dass eine Zufallsvariable annähernd normalverteilt ist, kann man alle möglichen Fragen zu dieser Variablen im Zusammenhang mit der Wahrscheinlichkeit beantworten. Nehmen wir zum Beispiel die Frage: "Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Produkt von Dairy Queen mehr als 500 Kalorien aus Fett hat?"

Wenn wir davon ausgehen, dass die Kalorien aus Fett auf der Speisekarte von Dairy Queen normalverteilt sind (eine sehr genaue Annäherung ist auch in Ordnung), können wir diese Wahrscheinlichkeit durch Berechnung eines Z-Scores und Konsultation einer Z-Tabelle (auch *Normalwahrscheinlichkeitstabelle* genannt) ermitteln. In Python wird dies in einem Schritt mit der Funktion `norm.cdf()` aus `scipy.stats` durchgeführt.

Die Funktion `norm.cdf()` gibt die Fläche unter der Normalkurve *unterhalb* eines bestimmten Wertes q mit einem bestimmten Mittelwert und einer bestimmten Standardabweichung an. Da wir uns für die Wahrscheinlichkeit interessieren, dass ein Dairy-Queen-Artikel *mehr* als 500 Kalorien aus Fett hat, müssen wir 1 minus diese Wahrscheinlichkeit nehmen.

In [None]:
from scipy.stats import norm

prob_theoretical = 1 - norm.cdf(500, loc = dqmean, scale = dqsd)
round(prob_theoretical, 4)

Unter der Annahme einer Normalverteilung konnten wir eine theoretische Wahrscheinlichkeit berechnen. Wenn wir die Wahrscheinlichkeit empirisch berechnen wollen, müssen wir lediglich feststellen, wie viele Beobachtungen über 500 liegen, und diese Zahl durch den Gesamtumfang der Stichprobe teilen.

In [None]:
prob_empirical = (sum(dairy_queen['cal_fat'] > 500) / len(dairy_queen['cal_fat']))
round(prob_empirical, 4)

Obwohl die Wahrscheinlichkeiten nicht genau gleich sind, liegen sie recht nahe beieinander. Je näher Ihre Verteilung an der Normalverteilung liegt, desto genauer sind die theoretischen Wahrscheinlichkeiten.

### ✏️ Aufgabe 6
Formulieren Sie zwei Wahrscheinlichkeitsfragen, die Sie für eines der Restaurants in diesem Datensatz beantworten möchten. Berechnen Sie diese Wahrscheinlichkeiten sowohl mit der theoretischen Normalverteilung als auch mit der empirischen Verteilung (insgesamt vier Wahrscheinlichkeiten). Bei welcher der beiden Fragen war die Übereinstimmung größer?

In [None]:
# <IHRE LÖSUNG HIER>

---

Diese Übung ist eine deutsche Übersetzung der Übungen aus OpenIntro Statistics von Andrew Bray und Mine Çetinkaya-Rundel (https://www.openintro.org/book/os/). Die Python Adaption wurde teilweise von David Akman und Imran Ture (www.featureranking.com) übernommen.