## Diskrete Zufallsvariablen - ein Beispiel
----------------------------------------

In [3]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Lassen Sie uns das Konzept der diskreten Zufallsvariablen anhand eines Beispiels erläutern.

Unsere zu untersuchende Population besteht aus allen Studierenden, allen Dozenten und allen Verwaltungsmitarbeitern der FU Berlin. Wir wählen zufällig eine dieser Personen aus und fragen sie nach der Anzahl ihrer Geschwister. Folglich ist die Antwort, die Anzahl der Geschwister einer zufällig ausgewählten Person, eine diskrete Zufallsvariable, bezeichnet als $X$. Der tatsächliche Wert (Anzahl der Geschwister) von $X$ hängt vom Zufall ab, aber wir können trotzdem alle Werte von $X$ auflisten, z.B. $0$ Geschwister, $1$ Geschwister, $2$ Geschwister, usw. Zur Vereinfachung beschränken wir die Anzahl der Geschwister in dieser Übung auf $5$.

Laut der <a href="https://www.fu-berlin.de/">Website</a> der FU Berlin gibt es $30.600$ Studierende, $5.750$ Doktoranden, $341$ Professoren und $4.270$ Mitarbeiter an der FU Berlin. Insgesamt gibt es $40.961$ Personen an der FU Berlin (bitte beachten Sie, dass sich die tatsächlichen Zahlen im Laufe der Zeit ändern können).

Da wir keine Vorstellung von der damit verbundenen Wahrscheinlichkeit für eine bestimmte Anzahl von Geschwistern haben, starten wir einige Experimente:

Wir wählen eine zufällig ausgewählte Person aus und fragen nach der Anzahl der Geschwister.

Die Antwort lautet: $0$

Wir wählen **zehn** zufällig ausgewählte Personen aus und befragen sie zu ihren Geschwistern.

Die Antworten lauten: $4$, $0$, $2$, $0$, $2$, $2$, $1$, $2$, $0$, $3$

Wir wählen *hundert* Personen aus und fragen nach Geschwistern.

Die Antworten lauten: $2, 0, 1, 2, 2, 0, 0, 0, 1, 3, 1, 2, 1, 0, 2, 0, 0, 2, 1, 1, 1, 1, 2, 2, 1, 2, 2, 0, 1, 1, 2, 4, 0, 3, 2, 0, 1, 2, 2, 2, 1, 2, 1, 1, 2, 1, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 0, 2, 0, 1, 0, 1, 2, 1, 2, 1, 2, 2, 2, 1, 0, 2, 2, 4, 1, 2, 1, 1, 1, 1, 1, 0, 2, 1, 0, 1, 0, 1, 1, 2, 0, 2, 0, 0$

Sie sehen, die Form der Notation wird ziemlich schnell unübersichtlich, wenn wir die Anzahl der abgefragten Individuen erhöhen. Wir beschließen also, die **Häufigkeit** und die entsprechende **relative Häufigkeit** der Werte für die Klassen $0$, $1$, $2$, $3$, $4$, $5$ (um es deutlich zu sagen: die letzte Klasse entspricht 5 oder mehr Geschwistern) zu notieren und das Experiment in Form einer schön formatierten Tabelle zu präsentieren.

Wir wählen 1.000 Personen aus und befragen sie zu ihren Geschwistern.

\begin{array}{c|lcr}
\text{Siblings} & \text{Frequency} & \text{Relative}\\
\ x & f & \text{frequency}\\
\hline
0 & 205 & 0.205  \\
1 & 419 & 0.419  \\
2 & 280 & 0.28 \\
3 & 65 & 0.065  \\
4 & 29 & 0.029  \\
5 & 2 & 0.002 \\
\hline
 & 1000 & 1
\end{array}

Nachdem wir alle möglichen Werte aufgelistet und die entsprechenden relativen Häufigkeiten berechnet haben, kennen wir immer noch nicht genau die Wahrscheinlichkeiten der diskreten Zufallsvariablen $X$ für die gesamte Population von $40.961$ Personen, die der FU Berlin zugeordnet sind. Nach Gesprächen mit $1.000$ zufällig ausgewählten Personen sind wir jedoch recht zuversichtlich, dass eine so große Anzahl von Interviews - verglichen mit der Anzahl der Gesamtpopulation $(40.961)$ - uns eine gute Annäherung an die Wahrscheinlichkeiten der diskreten Zufallsvariablen $X$ (Anzahl der Geschwister) für die Gesamtpopulation liefern wird.

Im nächsten Schritt zeichnen wir ein Wahrscheinlichkeitshistogramm (der Stichprobe), das die möglichen Werte einer diskreten Zufallsvariablen $X$ auf der horizontalen Achse und die Anteile dieser Werte auf der vertikalen Achse darstellt. Ein Verhältnishistogramm kann auch als Annäherung an die Wahrscheinlichkeitsverteilung dienen. Bitte beachten Sie, dass sowohl die Summe der Wahrscheinlichkeiten als auch die Summe der Anteile jeder diskreten Zufallsvariablen gleich $1$ ist.

In [17]:
#x = [0,1,2,3,4,5]
#y = [0.205,0.419,0.28,0.065,0.029,0.002]
#siblings = pd.DataFrame({'Geschwister':x, 'Häufigkeit':y})
#siblings[['Geschwister','Häufigkeit']].hist();

![Alt-Text](hist_siblings.png)

Bei vielen Anwendungen im wirklichen Leben kennen wir die Wahrscheinlichkeitsverteilung der Grundgesamtheit nicht - **und werden sie auch nie kennen**. Das liegt vor allem daran, dass in vielen Anwendungen die Grundgesamtheit viel zu groß ist oder es keine Möglichkeit gibt, zuverlässige Daten zu erhalten, oder wir weder das Geld noch die Zeit für eine umfassende Datenerhebung haben. Erhöht man jedoch die Anzahl der unabhängigen Beobachtungen einer Zufallsvariablen $X$, so nähert sich das Wahrscheinlichkeitshistogramm der Stichprobe immer mehr dem Wahrscheinlichkeitshistogramm der Grundgesamtheit an. Um diese Behauptung zu beweisen, vergrößern wir unser Experiment:

Wir wählen nacheinander $10$, $100$ und $1.000$ zufällig Personen aus, die mit der FU Berlin verbunden sind, und befragen sie nach der Anzahl der Geschwister. Wir werden jedes unserer drei Experimente aufzeichnen und schließlich mit der tatsächlichen/realen Wahrscheinlichkeitsverteilung vergleichen (Bitte beachten Sie, dass dieses Beispiel ein Übungsbeispiel ist und nicht die reale Anzahl der Geschwister in der Population der Personen an der FU Berlin darstellt; daher kennen die Dozenten des vorliegenden E-Learning-Moduls die Wahrscheinlichkeitsverteilung der Grundgesamtheit ;-))

![Alt-Text](hist_siblings2.png)

Die Diagramme bestätigen unsere Hypothese, dass sich das Histogramm der Stichprobe mit zunehmender Anzahl der Beobachtungen immer mehr dem Wahrscheinlichkeitshistogramm der Grundgesamtheit annähert.