<a href="https://colab.research.google.com/github/ulischlickewei/L2KI-CLT/blob/main/Teil_1_CLT_experimentell.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Der zentrale Grenzwertsatz
Ulrich Schlickewei (ulrich.schlickewei@thi.de)
## Über diese Aktivität

Diese Aktivität ist Teil 1 einer Lerneinheit zum Zentralen Grenzwertsatz. In diesem Teil soll die Aussage des Zentralen Grenzwertsatzes experimentell entdeckt werden.y

### Anleitung
Dieses Notebook enthält unterschiedliche Aufgaben:
- **Programmieraufgaben**: Diese sollen in Python direkt in den dafür vorgesehenen Zellen unterhalb der Aufgabenstellung programmiert werden. Es können nach Bedarf beliebige weitere Codezellen in das Notebook eingefügt werden. Alle Programmieraufgaben enthalten bereits einen vorgegebenen Rumpf an Code. Dieser vorgegebene Code muss an überall dort, wo `...` zu finden ist, durch eigenen Code vervollständigt werden.
- **Freitextaufgaben**: Hierbei soll eine Graphik beschrieben oder interpretiert werden. Der Antworttext soll in Markdown verfasst in den unter dem Aufgabentext bereitgestellten Markdown-Zellen eingefügt werden.

### Benötigte Pakete
Dieses Notebook benötigt folgende Pakete. Solltest Du das Notebook in Deiner eigenen Umgebung laufen lassen, musst Du diese ggf. noch installieren:
- Numpy (`pip install numpy`)
- Pandas (`pip install pandas`)
- Scipy (`pip install scipy`)
- Plotly (`pip install plotly`)
- Plotly Express (`pip install plotly_express`)
- Dash (`pip install dash`)

Solltest Du das Notebook in Google Colab nutzen, so lasse bitte die untenstehende Zelle laufen.

In [None]:
if 'google.colab' in str(get_ipython()):
  print('Running on CoLab')
  !pip install dash
else:
  print('Not running on CoLab')

## A. Simulation von Stichproben

### A.1 Würfeln mit fairen Würfeln
Wir starten mit der Simulation eines Würfelexperiments: Wir würfeln mit einem fairen Würfel und wiederholen dieses Experiment `n` mal.

Dieses Vorgehen implementieren wir nun.

#### Aufgabe A.1.1
Schreibe eine Funktion `throw_one_die` mit folgender Signatur:
- Input: `n` = Anzahl an Wiederholungen des einzelnen Würfelwurfs
- Output: `Z` = Numpy-Array der Länge `n`. Dieser Array soll das simulierte Ergebnis des oben beschriebenen Würfelexperiments enthalten. `Z` soll also Zufallszahlen zwischen $1$ und $6$ enthalten, welche aus einer diskreten Gleichverteilung gezogen werden.

*Hinweis*: Gleichverteilte, ganzzahlige Zufallszahlen erhält man in `numpy` über [`random.Generator.integers`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.integers.html#numpy.random.Generator.integers) (bitte anklicken, um auf die Dokumentation dieser Methode zu gelangen).

In [None]:
import numpy as np

def throw_one_die(n):
    rng = np.random.default_rng()
    Z = ...
    return ...

#### Aufgabe A.1.2
Führe die untenstehende Zelle aus. Diese erstellt ein interaktives Histogramm der Augenzahlen, welche mithilfe der Funktion aus A.1.1 gewürfelt werden. Du kannst dabei die Zahl der Wiederholungen frei über den Slider wählen.

Betrachte das Histogramm für unterschiedliche Werte von `n` und fasse Deine Beobachtungen in der Textzelle unterhalb des Graphen zusammen.

In [None]:
from dash import Dash, html, dcc, Input, Output
import plotly.express as px

app = Dash()

app.layout = [html.H2('Histogramm: Wiederholtes Werfen eines einzelnen Würfels'),
              html.Div('Anzahl Wiederholungen'),
              dcc.Slider(0, 4, 0.1,
                  id='num-repetitions',
                  marks={i: '{}'.format(10 ** i) for i in range(5)},
                  value=0,
              ),
              dcc.Graph(id="histogram")
]
@app.callback(
    Output("histogram", "figure"),
    Input("num-repetitions", "value")
)

def update_chart(n_base):
    num_repetitions = int(round((10**n_base),0))
    Z = throw_one_die(num_repetitions)
    fig = px.histogram(x=Z,nbins=6, range_x = [0.5,6.5])
    return fig

if __name__ == '__main__':
    app.run(debug=True, jupyter_mode = "inline")

*Deine Beobachtungen in diese Zelle:*

...

#### Aufgabe A.1.3

Statt eines einzigen Würfels werfen wir jetzt einen ganzen Sack mit `N` Würfeln. Auch dieses Experiment wiederholen wir, wobei `n` die Anzahl der Wiederholungen beschreibe.

Schreibe eine Funktion `throw_several_dice` mit folgender Signatur:
- Inputs: `n` = Anzahl an Wiederholungen der Sackwürfe und `N` = Anzahl an Würfeln pro Sack
- Output: `Z` = Numpy-Array der Länge `n`, welcher für jede Wiederholung die **mittlere Augenzahl** aller Würfel aus dem jeweiligen Sack enthält.

Auch hier ist wieder der `numpy`-Zufallsgenerator [`random.Generator.integers`]([https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.integers.html#numpy.random.Generator.integers) hilfreich (bitte anklicken, um auf die Dokumentation dieser Methode zu gelangen).

In [None]:
def throw_several_dice(n,N):
    rng = np.random.default_rng()
    Z = ...
    return ...

#### Aufgabe A.1.4
Führe die untenstehende Zelle aus. Diese erstellt ein interaktives Histogramm der mittleren Augenzahl, welche mithilfe der Funktion aus A.1.3 gewürfelt werden. Du kannst dabei die Zahl der Würfel im Sack `N` frei über den Slider wählen. Die Anzahl der Wiederholungen haben wir auf 10.000 gesetzt, um ein gutes Gefühl für die Verteilung der mittleren Augenzahl zu bekommen.

Betrachte das Histogramm für unterschiedliche Werte für die Anzahl der Würfel im Sack `N` und fasse Deine Beobachtungen in der Textzelle unterhalb des Graphen zusammen.

In [None]:
from dash import Dash, html, dcc, Input, Output
import plotly.graph_objects as go

app = Dash()

app.layout = [html.H2('Histogramm: Wiederholtes Werfen von N Würfeln'),
              html.Div('Anzahl Würfel pro Sack'),
              dcc.Slider(1, 50,
                  id='num-dice',
                  marks={i: '{}'.format(i) for i in [1,2,5,10,20,50]},
                  value=1,
              ),
              dcc.Graph(id="histogram")
]
@app.callback(
    Output("histogram", "figure"),
    Input("num-dice", "value")
)

def update_chart(num_dice):
    num_repetitions = 10000
    num_dice = int(num_dice)
    Z = throw_several_dice(num_repetitions, num_dice)
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=Z, histnorm = 'probability density', nbinsx=30))
    return fig

if __name__ == '__main__':
    app.run(debug=True, jupyter_mode = "inline")


*Deine Beobachtungen hier*

...

### A.2 Würfeln mit unfairen Würfeln
Wir wiederholen jetzt das Zufallsexperiment aus A.1, diesmal allerdings mit einem unfairen Würfel, bei welchem auf die 6 die Wahrscheinlichkeit $0.5$ entfällt, während alle anderen Augenzahlen jeweils Wahrscheinlichkeit $0.1$ haben.

#### Aufgabe A.2.1
Schreibe eine Funktion throw_several_unfair_dice mit folgender Signatur:

- Inputs: n = Anzahl an Wiederholungen der Sackwürfe und N = Anzahl an Würfeln pro Sack
- Output: Z = Numpy-Array der Länge n, welcher für jede Wiederholung die mittlere Augenzahl aller Würfel aus dem jeweiligen Sack enthält.

*Hinweis*: Verwende den numpy-Zufallsgenerator [`random.Generator.choice`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.Generator.choice.html), welcher es erlaubt, eine eigene Wahrscheinlichkeitsverteilung zu hinterlegen.

In [None]:
def throw_several_unfair_dice(n,N):
    rng = np.random.default_rng()
    ...
    return ...

#### Aufgabe A.2.2

Führe die untenstehende Zelle aus. Diese erstellt ein interaktives Histogramm der mittleren Augenzahlen, welche mithilfe der Funktion aus A.2.1 bzw. Aus A.1.3 gewürfelt werden. Du kannst über den Schalter wählen, ob Du mit einem unfairen oder mit einem fairen Würfel würfeln möchtest. Zudem kannst Du die Zahl der Würfel im Sack `N` und die Zahl der Wiederholungen `n` frei über den Slider wählen.

Betrachte das Histogramm für unterschiedliche Werte von `N` und fasse Deine Beobachtungen in der Textzelle unterhalb des Graphen zusammen.

In [None]:
from dash import Dash, html, dcc, Input, Output
import plotly.graph_objects as go

app = Dash()

app.layout = [html.H2('Histogramm: Wiederholtes Werfen von N Würfeln'),
              html.Div('Art des Würfels'),
              dcc.RadioItems(options=['fair', 'unfair'], value='unfair', id='controls-and-radio-item'),
              html.Div('Anzahl Würfel pro Sack'),
              dcc.Slider(1, 100,
                  id='num-dice',
                  marks={i: '{}'.format(i) for i in [1,2,5,10,20,50,100]},
                  value=1,
              ),
              dcc.Graph(id="histogram")
]
@app.callback(
    Output("histogram", "figure"),
    Input("controls-and-radio-item", "value"),
    Input("num-dice", "value")
)

def update_chart(type_die, num_dice):
    num_repetitions = 10000
    num_dice = int(num_dice)
    if (type_die == 'fair'):
        Z = throw_several_dice(num_repetitions, num_dice)
    else:
        Z = throw_several_unfair_dice(num_repetitions, num_dice)
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=Z, histnorm = 'probability density', nbinsx=30))
    return fig

if __name__ == '__main__':
    app.run(debug=True, jupyter_mode = "inline")

*Deine Beobachtungen hier*

...

#### Aufgabe A.2.3

Schreibe eine Funktion `compute_sample_mean_and_sigma`, welche folgende Signatur hat:
- Input: `type_of_die` = `string`, welcher die Werte `fair` oder `unfair` haben kann je nach Art des Würfels; `N` = Anzahl der Würfel im Sack
- Output: `mu` = erwartete mittlere Augenzahl beim Werfen des Sacks, `sigma` = erwartete Standardabweichung der mittleren Augenzahl bei `N` Würfeln im Sack

In [None]:
def compute_sample_mean_and_sigma(type_of_die, N):
    ...
    return mu, sigma

#### Aufgabe A.2.4
Führe die untenstehende Zelle aus, welche eine interaktive Graphik zurückgibt. In dieser kann zwischen fairem und unfairem Würfel gewählt werden, zudem kann die Anzahl der Würfel im Sack `N` (Stichprobengröße) gewählt werden. Die Graphik gibt zudem die Dichtefunktion der Normalverteilung mit Mittelwert und Standardabweichung aus, welche durch die Funktion aus Aufgabe A.2.3 berechnet wird.

Was beobachtest Du? Wie unterscheiden sich die Verteilungen des Stichprobenmittels bei fairem und bei unfairem Würfel?

In [None]:
from dash import Dash, html, dcc, Input, Output
import plotly.express as px
import plotly.graph_objects as go

app = Dash()

app.layout = [html.H2('Histogramm: Wiederholtes Werfen von N Würfeln'),
              html.Div('Art des Würfels'),
              dcc.RadioItems(options=['fair', 'unfair'], value='unfair', id='controls-and-radio-item'),
              html.Div('Anzahl Würfel pro Sack'),
              dcc.Slider(1, 100,
                  id='num-dice',
                  marks={i: '{}'.format(i) for i in [1,2,5,10,20,50,100]},
                  value=1,
              ),
              dcc.Graph(id="histogram")
]
@app.callback(
    Output("histogram", "figure"),
    Input("controls-and-radio-item", "value"),
    Input("num-dice", "value")
)

def update_chart(type_die, num_dice):
    from scipy.stats import norm
    num_repetitions = 10000
    num_dice = int(num_dice)
    if (type_die == 'fair'):
        Z = throw_several_dice(num_repetitions, num_dice)
    else:
        Z = throw_several_unfair_dice(num_repetitions, num_dice)
    fig = go.Figure()
    fig.add_trace(go.Histogram(x=Z, histnorm = 'probability density', nbinsx=30, name='Histogramm'))
    mu,sigma = compute_sample_mean_and_sigma(type_die, num_dice)
    x=np.linspace(mu-2, mu+2, num=1000)
    fig.add_trace(go.Scatter(x=x, y=norm.pdf(x,loc=mu, scale=sigma), mode='lines', name='Dichte der Normalverteilung'))
    return fig

if __name__ == '__main__':
    app.run(debug=True, jupyter_mode = "inline")

*Deine Beobachtungen hier*

- Für große Werte von `N` passt die Dichte der Normalverteilung sehr gut zum Histogramm, sowohl für den fairen als auch für den unfairen Würfel.
- Für kleinere Werte von `N` gibt es aber Unterschiede zwischen fairem und unfairem Würfel. Bei `N=10` oder sogar `N=20` sieht man beim unfairen Würfel, dass die Verteilung leicht rechtssteil ist. Dies fällt vor allem im direkten Vergleich mit der Dichte der Normalverteilung auf.
- Beim fairen Würfeln hingegen passt bereits für `N=10` die Dichte der Normalverteilung sehr gut zum Histogramm.

## B. Stichproben aus einem echten Datensatz

Im Teil A haben wir das wiederholte Werfen mehrerer Würfel simuliert. Wir haben das Histogramm der mittleren Augenzahl untersucht, wobei wir die gleiche Anzahl an Würfeln immer wieder geworfen haben. Interpretieren wir die Augenzahlen der `N` Würfel in einem Sack als eine Stichprobe der Größe `N`, so haben wir also die Verteilung des Stichprobenmittels simuliert, wenn die Stichprobe immer und immer wieder gezogen wird. Als Ergebnis dieser Untersuchtung können wir festhalten, dass sich die Histogramme der simulierten Stichprobenmittel für zunehmende Stichprobengröße dem Histogramm einer Normalverteilung mit passenden Parametern annähert.

Im nun folgenden Teil B möchten wir eine ähnliche Untersuchung mit echten Daten anstellen. Dafür verwenden wir einen Datensatz, welcher die Verspätung von 13.825 United-Airlines-Flügen beim Start am Flughafen San Francisco aus dem Sommer 2015 enthält. Dieses Beispiel stammt aus dem Onlinebuch ["Computational and Inferential Thinking: The Foundations of Data Science"](https://inferentialthinking.com) von A. Adhikari, J. DeNero und D. Wagner.

#### Aufgabe B.1
Führe die untenstehende Zelle aus. Diese lädt den Datensatz und gibt ein Histogramm der Flugverspätungen aus.

Nutze dann die untenstehende leere Codezelle, um die mittlere Verspätung und die Standardabweichung der Verspätung zu bestimmen. Beschreibe dann die Verteilung und das Histogramm.

In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/ulischlickewei/L2KI-CLT/refs/heads/main/united_summer2015.csv'
united = pd.read_csv(url)
px.histogram(united, x = 'Delay', range_x = [-20,300])

In [None]:
united

In [None]:
mean_delay = ...
sd_delay = ...
mean_delay, sd_delay

*Deine Beschreibung der Verteilung hier*

...

#### Aufgabe B.2

Wir werden jetzt so tun, als wären die 13.825 Datensätze unsere Gesamtpopulation zu Verspätungen. Aus dieser werden wir 10.000 Stichproben der Stichprobengröße 400 ziehen und für jede dieser Stichproben die jeweiligen Stichprobenmittel berechnen.

Erstelle einen Numpy-Array der Länge 10.000 mit Namen `mean_deviations`. Dieser soll die Stichprobenmittel der 10.000 Stichproben der Länge 400 enthalten.

Nutzen dafür wiederholt die Pandas-Funktion [`sample`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) (klicke auf den Link, um zur Dokumentation zu gelangen), um aus dem Gesamtdatensatz Stichproben der Länge 400 zu erstellen. Dabei sollte unbedingt mit Zurücklegen (Parameter `replace`) gewählt werden, da das Ziehen mit Zurücklegen beim Simulieren einer Stichprobe aus einem endlichen Datensatz bessere Ergebnisse erzielt. Befülle dann iterativ `mean_deviations` mit dem jeweiligen Stichprobenmittel.

In [None]:
num_repetitions = 10000
num_samples=400
mean_deviations = ...
...

#### Aufgabe B.3

Berechne in der Codezelle unten das erwartete Stichprobenmittel `mean` und die erwartete Stichprobenstandardabweichung `sigma`.

In [None]:
mu,sigma = ...

#### Aufgabe B.4
Führe die untenstehende Codezelle aus. Diese erstellt das Histogramm der Stichprobenmittel aus den 10.000 Stichproben der Größe 400. Zum Vergleich wird zudem die Dichte der Normalverteilung mit Mittelwert `mu` und Standardabweichung `sigma` angezeigt.

Beschreibe dann Deine Beobachtungen.

In [None]:
import math
from scipy.stats import norm

fig = go.Figure()
fig.add_trace(go.Histogram(x=mean_deviations, histnorm = 'probability density', nbinsx = 75, name='Histogramm'))
x=np.linspace(mu-10, mu+10, num=1000)
fig.add_trace(go.Scatter(x=x, y=norm.pdf(x,loc=mu, scale=sigma), mode='lines', name='Dichte der Normalverteilung'))

*Deine Beobachtungen hier*

...