# Bearbeitungshinweise
Im Notebook werden verschiedene Fragestellungen an einem Datensatz untersucht. Die Aufgaben, die sie bearbeiten sollen, ergänzen diese Untersuchungen. Unter jeder Aufgabe befindet sich eine (Code-)Zelle, die etwa so aussieht:

In [52]:
# <IHRE LÖSUNG HIER>

Dort tragen Sie bitte ihren Python Code ein. Bei manchen Aufgaben wird auch kein Code verlangt, sondern eine (kurze) Erklärung. In diesem Fall konvertieren Sie die Zelle bitte zu einer Markdown-Zelle ("Esc" und dann "M" drücken - "Esc" und dann "Y" konvertiert wieder zu einer Code-Zelle) und tragen dort Ihre Antwort ein.

Falls Sie keine lokale Python Installation haben, können Sie das Notebook auch in Google Colab öffnen und bearbeiten (Google Account benötigt):

<a target="_blank" href="https://colab.research.google.com/github/djanka2/statistik-uebungen/blob/main/05%20-%20Stichprobenverteilung.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

---

# Übung 5: Grundlagen der schließenden Statistik - Stichprobenverteilungen

In dieser Übung untersuchen wir, wie die Statistiken einer Zufallsstichprobe von Daten als Punktschätzungen für Populationsparameter dienen können. Wir sind daran interessiert, eine *Stichprobenverteilung* unserer Schätzung zu formulieren, um etwas über die Eigenschaften der Schätzung zu erfahren. Da die Schätzung eines Parameters (z.B. des Mittelwertes einer großen, aber unbekannten Grundgesamtheit) auf einem Zufallsprozess basiert (dem Ziehen einer Stichprobe), ist die Schätzung selbst auch eine zufällige Größe und besitzt deshalb auch eine Verteilung. Diese möchten wir hier untersuchen.

## Die Daten

Wir betrachten Anzeigen von Mietwohnungen deutschlandweit, die auf dem Portal [Immoscout](https://www.immoscout.de) zum Stichtag 01.02.2020 veröffentlicht waren. Die Sammlung repräsentiert die Grundgesamtheit, die uns interessiert. In dieser Übung möchten wir mehr über diese Mietwohnungen erfahren, indem wir kleinere Stichproben aus der Grundgesamtheit nehmen.

In [53]:
import numpy as np
import pandas as pd
import plotly.express as px

immo = pd.read_csv("https://raw.githubusercontent.com/djanka2/statistik-uebungen/main/Daten/immo.csv")

Werfen wir einen kurzen Blick auf die ersten Zeilen der Daten.

In [54]:
immo.head()

Unnamed: 0,Bundesland,Kreis,Ort,Kaltmiete,Wohnfläche,Gesamtmiete,PLZ,Zimmer,Baujahr
0,Bremen,Bremen,Neu_Schwachhausen,765.0,84.97,903.0,28213,3.0,1950.0
1,Schleswig_Holstein,Schleswig_Flensburg_Kreis,Struxdorf,315.2,53.43,,24891,2.0,1999.0
2,Sachsen,Mittelsachsen_Kreis,Freiberg,310.0,62.0,380.0,9599,2.0,
3,Bremen,Bremen,St._Magnus,452.25,60.3,584.25,28717,3.0,1959.0
4,Baden_Württemberg,Emmendingen_Kreis,Denzlingen,580.0,53.0,690.0,79211,2.0,1970.0


Wir sehen, dass der Datensatz eine Reihe von Variablen zur Lage der Wohnung enthält. In dieser Übung beschränken wir uns auf zwei der Variablen: `Wohnfläche` der Wohnung in m² und `Kaltmiete`. Um im Laufe der Übung etwas Arbeit zu sparen, erstellen wir zwei Variablen mit kurzen Namen, die diese beiden Spalten darstellen.

In [55]:
wfl = immo["Wohnfläche"]
kaltmiete = immo["Kaltmiete"]

Schauen wir uns die Verteilung der Wohnfläche in unserer Population von Mietwohnungen an, indem wir einige zusammenfassende Statistiken berechnen und ein Histogramm erstellen.

In [56]:
wfl.describe()

count    79268.000000
mean        72.519196
std         31.687423
min          0.000000
25%         53.000000
50%         66.700000
75%         86.000000
max        460.000000
Name: Wohnfläche, dtype: float64

In [57]:
px.histogram(wfl, nbins=100)

### ✏️ Aufgabe 1
Beschreiben Sie die Verteilung der Grundgesamtheit

In [58]:
# <IHRE LÖSUNG HIER>
"""
Die Verteilung der Grundgesamtheit ist etwas rechtsschief und nach links geneigt. Weiterhin weißt sie eine glockenförmige Form auf und ist annähernd normalverteilt.
"""

'\nDie Verteilung der Grundgesamtheit ist etwas rechtsschief und nach links geneigt. Weiterhin weißt sie eine glockenförmige Form auf und ist annähernd normalverteilt.\n'

## Die unbekannte Stichprobenverteilung

In dieser Übung haben wir Zugang zu der Grundgesamtheit, aber das ist im wirklichen Leben selten der Fall. Das Sammeln von Informationen über eine gesamte Population ist oft extrem kostspielig oder unmöglich. Aus diesem Grund nehmen wir oft eine Stichprobe der Grundgesamtheit und verwenden diese, um die Eigenschaften der Grundgesamtheit zu verstehen.

Wenn wir daran interessiert wären, die durchschnittliche Wohnfläche aller Mietwohnungen anhand einer Stichprobe zu schätzen, können wir folgenden Befehl verwenden, um eine Stichprobe zu erheben.

In [59]:
samp1 = wfl.sample(50)

Mit diesem Befehl wird eine einfache Zufallsstichprobe der Größe 50 aus dem Vektor `wfl` gezogen, die dann `samp1` zugewiesen wird. Das ist so, als würde man auf der Website von Immoscout 50 zufällige Mietanzeigen aufrufen. Die Arbeit mit diesen 50 Datensätzen wäre wesentlich einfacher als die Arbeit mit allen 79268 Anzeigen.

### ✏️ Aufgabe 2
Beschreiben Sie die Verteilung dieser Stichprobe. Wie ist sie im Vergleich zur Verteilung der Grundgesamtheit?

In [60]:
# <IHRE LÖSUNG HIER>
print(samp1.describe())
px.histogram(samp1, nbins=20).show()

"""
Die Verteilung der Stichprobe ist etwas mehr nach links geneigt. Dies bedeutet, dass die Stichprobe im Durchschnitt niedrigere Werte aufweist als die Grundgesamtheit. 
Mathematisch ausgedrückt bedeutet dies, dass der Median oder der Modus der Stichprobe kleiner ist als der der Grundgesamtheit.
"""

count     50.000000
mean      76.162000
std       30.325876
min       25.000000
25%       54.802500
50%       68.330000
75%       97.500000
max      156.000000
Name: Wohnfläche, dtype: float64


'\nDie Verteilung der Stichprobe ist etwas mehr nach links geneigt. Dies bedeutet, dass die Stichprobe im Durchschnitt niedrigere Werte aufweist als die Grundgesamtheit. \nMathematisch ausgedrückt bedeutet dies, dass der Median oder der Modus der Stichprobe kleiner ist als der der Grundgesamtheit.\n'

Wenn wir daran interessiert sind, die durchschnittliche Wohnfläche einer Mietwohnung anhand der Stichprobe zu schätzen, ist unsere beste Schätzung der Stichprobenmittelwert.

In [61]:
samp1.mean()

76.16199999999999

Je nachdem, welche 50 Wohnungen Sie ausgewählt haben, könnte Ihre Schätzung etwas über oder etwas unter dem tatsächlichen Durchschnitt der Grundgesamtheit von 72.52 m² liegen. Im Allgemeinen erweist sich der Stichprobenmittelwert jedoch als ziemlich gute Schätzung der durchschnittlichen Wohnfläche, und wir konnten ihn mit einer Stichprobe von weniger als 0.1 % der Grundgesamtheit ermitteln.

### ✏️ Aufgabe 3
Nehmen Sie eine zweite Stichprobe, ebenfalls mit einem Umfang von 50, und nennen Sie sie `samp2`. Wie verhält sich der Mittelwert von `samp2` im Vergleich zum Mittelwert von `samp1`? Angenommen, wir nehmen zwei weitere Stichproben, eine mit dem Umfang 100 und eine mit dem Umfang 1000. Welche würde Ihrer Meinung nach eine genauere Schätzung des Mittelwerts der Grundgesamtheit liefern?

In [62]:
# <IHRE LÖSUNG HIER>
samp2 = wfl.sample(50)
print(samp2.mean())

"""
Der Mittelwert ist größer als der Mittelwert von samp1, was auch nicht überraschend das man jedes Mal bei einer zufälligen weiteren Stichprobe einen etwas 
anderen Stichprobenmittelwert bekommt der etwas über oder etwas unter dem tatsächlichen Durchschnitt der Grundgesamtheit ist.

Die Stichprobe mit dem Umfang 1000 würde eine genauere Schätzung des Mittelwerts der Grundgesamtheit liefern.
Eine Stichprobe ist eine Teilmenge einer Grundgesamtheit, die zur Untersuchung oder Analyse ausgewählt wird. 
Je größer die Stichprobe ist, desto besser können Schlüsse auf die Grundgesamtheit gezogen werden.

Das Gesetz der großen Zahlen besagt, dass bei einer zufälligen Auswahl von Stichproben aus einer Grundgesamtheit die 
empirischen Durchschnittswerte der Stichproben sich mit zunehmender Stichprobengröße der wahrscheinlichen Wertverteilung der Grundgesamtheit annähern. 
Dies bedeutet, dass eine größere Stichprobe tendenziell zuverlässigere und genauere Ergebnisse liefert.    
"""

77.953


'\nDer Mittelwert ist größer als der Mittelwert von samp1, was auch nicht überraschend das man jedes Mal bei einer zufälligen weiteren Stichprobe einen etwas \nanderen Stichprobenmittelwert bekommt der etwas über oder etwas unter dem tatsächlichen Durchschnitt der Grundgesamtheit ist.\n\nDie Stichprobe mit dem Umfang 1000 würde eine genauere Schätzung des Mittelwerts der Grundgesamtheit liefern.\nEine Stichprobe ist eine Teilmenge einer Grundgesamtheit, die zur Untersuchung oder Analyse ausgewählt wird. \nJe größer die Stichprobe ist, desto besser können Schlüsse auf die Grundgesamtheit gezogen werden.\n\nDas Gesetz der großen Zahlen besagt, dass bei einer zufälligen Auswahl von Stichproben aus einer Grundgesamtheit die \nempirischen Durchschnittswerte der Stichproben sich mit zunehmender Stichprobengröße der wahrscheinlichen Wertverteilung der Grundgesamtheit annähern. \nDies bedeutet, dass eine größere Stichprobe tendenziell zuverlässigere und genauere Ergebnisse liefert.    \n'

Wenig überraschend erhalten wir jedes Mal, wenn wir eine weitere Stichprobe nehmen, einen anderen Stichprobenmittelwert. Es ist hilfreich, ein Gefühl dafür zu bekommen, wie viel Variabilität wir erwarten sollten, wenn wir den Mittelwert der Grundgesamtheit auf diese Weise schätzen. Die Verteilung der Stichprobenmittelwerte, die so genannte *Stichprobenverteilung*, kann uns helfen, diese Variabilität zu verstehen. Da wir in dieser Übung Zugang zur Grundgesamtheit haben, können wir die Stichprobenverteilung für den Stichprobenmittelwert erstellen, indem wir die oben genannten Schritte viele Male wiederholen. Hier erzeugen wir 5000 Stichproben und berechnen den Mittelwert jeder einzelnen Stichproben.

In [63]:
sample_means50 = [wfl.sample(50).mean() for i in range(0, 5000)]

px.histogram(sample_means50)

Mit dem Argument `nbins` kann man das Erscheinungsbild des Histogrammes steuern 

In [64]:
px.histogram(sample_means50, nbins=40)

Hier verwenden wir Python, um 5000 Stichproben der Größe 50 aus der Grundgesamtheit zu ziehen, den Mittelwert jeder Stichprobe zu berechnen und jedes Ergebnis in einer Variablen namens `sample_means50` zu speichern. Als Nächstes werden wir uns ansehen, wie dieser Code funktioniert.

### ✏️ Aufgabe 4
Wie viele Elemente sind in `sample_means50` enthalten? Beschreiben Sie die Stichprobenverteilung, insbesondere ihren Mittelpunkt. Würden Sie erwarten, dass sich die Verteilung ändern würde, wenn wir stattdessen 50.000 Stichprobenmittelwerte sammeln würden?

In [65]:
# <IHRE LÖSUNG HIER>
"""
In einer Stichprobe der Größe 50 aus einer Grundgesamtheit gibt es insgesamt 50 Elemente.
Wenn wir nun 50.000 Stichproben der Größe 50 aus der Grundgesamtheit ziehen, dann multiplizieren wir einfach die Größe der Stichprobe mit der Anzahl der Stichproben:
50 (Elemente pro Stichprobe) * 50.000 (Anzahl der Stichproben) = 2.500.000
Insgesamt sind in den 50.000 Stichproben also 2.500.000 Elemente enthalten.

Ja sie würde mehr der Grundgesamtheit entsprechen.
"""

'\nIn einer Stichprobe der Größe 50 aus einer Grundgesamtheit gibt es insgesamt 50 Elemente.\nWenn wir nun 50.000 Stichproben der Größe 50 aus der Grundgesamtheit ziehen, dann multiplizieren wir einfach die Größe der Stichprobe mit der Anzahl der Stichproben:\n50 (Elemente pro Stichprobe) * 50.000 (Anzahl der Stichproben) = 2.500.000\nInsgesamt sind in den 50.000 Stichproben also 2.500.000 Elemente enthalten.\n\nJa sie würde mehr der Grundgesamtheit entsprechen.\n'

### ✏️ Aufgabe 5
Initialisieren Sie einen Vektor mit 100 Nullen namens `sample_means_small` (Hinweis: Benutzen Sie die Methode `np.zeros`). Führen Sie eine Schleife aus, die eine Stichprobe der Größe 50 aus `wfl` nimmt und den Stichprobenmittelwert in `sample_means_small` speichert. Die Schleife soll von 0 bis 99 iterieren. Geben Sie `sample_means_small` aus. Wie viele Elemente befinden sich in diesem Objekt? Was stellt jedes Element dar?

In [66]:
# <IHRE LÖSUNG HIER>
sample_means_small = np.zeros(100)

for i in range(100):
    sample = wfl.sample(50)
    sample_means_small[i] = sample.mean()

print(sample_means_small)

"""
Es befinden sich 100 Elemente in sample_means_small. Jedes Element stellt den Stichprobenmittelwert einer Stichprobe der Größe 50 aus wfl dar.
"""

[70.8934 66.2862 68.2676 72.4712 75.9594 63.0304 67.2544 73.192  73.3552
 71.389  72.5702 68.3788 79.3098 70.6284 75.9    70.7874 73.0582 70.4194
 68.3516 79.7256 72.5534 69.0202 67.664  69.4314 81.2962 78.2756 70.045
 69.9414 67.0692 69.3794 78.0024 77.7782 76.4266 76.3666 69.6218 75.632
 68.4844 74.5844 69.9256 71.9436 73.583  82.8304 73.7106 77.159  75.3732
 71.4756 73.9788 68.4616 74.2084 74.3344 65.4222 68.27   70.8666 70.418
 68.9036 63.4236 69.046  71.9838 70.6204 77.8484 72.691  76.7532 78.1252
 71.0344 66.7934 76.832  72.3672 73.9094 77.6578 69.2592 68.7236 69.649
 68.3468 62.2414 71.1218 73.9736 73.2376 69.968  70.7628 74.2518 79.679
 83.2156 77.2026 78.9734 71.5128 74.1814 63.1414 71.4748 79.1592 72.6552
 72.7838 77.4474 72.3264 76.9666 75.0382 75.5672 70.1362 74.208  70.8908
 80.3388]


'\nEs befinden sich 100 Elemente in sample_means_small. Jedes Element stellt den Stichprobenmittelwert einer Stichprobe der Größe 50 aus wfl dar.\n'

## Stichprobenumfang und Stichprobenverteilung

Die von uns berechnete Stichprobenverteilung sagt viel über die Schätzung der durchschnittlichen Wohnfläche der im Februar 2020 angebotenen Mietwohnungen in Deutschland aus. Da der Stichprobenmittelwert ein unverzerrter Schätzer ist, ist die Stichprobenverteilung auf die tatsächliche durchschnittliche Wohnfläche der Grundgesamtheit zentriert, und die Streuung der Verteilung zeigt an, wie viel Variabilität durch die Stichprobe von nur 50 Mietwohnungen verursacht wird.

Um ein Gefühl dafür zu bekommen, wie sich der Stichprobenumfang auf unsere Verteilung auswirkt, lassen Sie uns zwei weitere Stichprobenverteilungen erstellen: eine auf der Grundlage eines Stichprobenumfangs von 10 und eine weitere auf der Grundlage eines Stichprobenumfangs von 100.

In [67]:
sample_means10 = [wfl.sample(10).mean() for i in range(0, 5000)]
sample_means100 = [wfl.sample(100).mean() for i in range(0, 5000)]

Um zu sehen, wie sich unterschiedliche Stichprobengrößen auf die Stichprobenverteilung auswirken, legen Sie die drei Verteilungen übereinander. Wir benutzen dazu plotly's faceting Funktionalität: Zunächst speichern wir 3x5000 gezogenen Stichprobenmittelwerte in einem DataFrame und speichern zu jedem in der Spalte `N` die Stichprobengröße (also 10, 50 oder 100). Diese Spalte übergeben wir plotly im Argument `facet_row`, so dass für jede der drei Ausprägungen ein Graph (in einer Zeile) erzeugt wird. Im Plotly Befehl, ändern Sie ggf. die Argumente `width`, `height` und `nbins` um eine bessere Darstellung zu erhalten.  

In [68]:
sample_means = pd.DataFrame({"mu": sample_means10 + sample_means50 + sample_means100, "N": 5000*[10] + 5000*[50] + 5000*[100]})
px.histogram(sample_means, x="mu", facet_row="N", nbins=60, width=600, height=600)

### ✏️ Aufgabe 6
Was passiert mit dem Zentrum, wenn der Stichprobenumfang größer ist? Was ist mit der Streuung?

In [69]:
# <IHRE LÖSUNG HIER>
"""
Wenn der Stichprobenumfang größer ist, wird der Umfang der Stichprobe genauer und zuverlässiger, 
da mehr Datenpunkte zur Analyse zur Verfügung stehen. Dadurch können statistische Tests präziser durchgeführt und genauere Schlussfolgerungen gezogen werden.

Die Streuung, auch bekannt als Varianz, wird in der Regel kleiner, wenn der Stichprobenumfang größer ist. Das bedeutet, 
dass die Datenpunkte enger um den Mittelwert streuen und die Ergebnisse konsistenter werden. 
Mit einer größeren Stichprobe sind Ausreißer oder Zufallsfehler weniger wahrscheinlich, was zu einer stabileren und robusteren Analyse führt.
"""

'\nWenn der Stichprobenumfang größer ist, wird der Umfang der Stichprobe genauer und zuverlässiger, \nda mehr Datenpunkte zur Analyse zur Verfügung stehen. Dadurch können statistische Tests präziser durchgeführt und genauere Schlussfolgerungen gezogen werden.\n\nDie Streuung, auch bekannt als Varianz, wird in der Regel kleiner, wenn der Stichprobenumfang größer ist. Das bedeutet, \ndass die Datenpunkte enger um den Mittelwert streuen und die Ergebnisse konsistenter werden. \nMit einer größeren Stichprobe sind Ausreißer oder Zufallsfehler weniger wahrscheinlich, was zu einer stabileren und robusteren Analyse führt.\n'

---
### ✏️ Aufgabe 7

Bislang haben wir uns nur auf die Schätzung der durchschnittlichen Wohnfläche von Mietwohnungen konzentriert. Jetzt werden Sie versuchen, die durchschnittliche Kaltmiete der Wohnungen zu schätzen.
- Ziehen Sie eine Zufallsstichprobe mit einem Umfang von 50 aus `Kaltmiete`. Wie lautet Ihre beste Punktschätzung des Mittelwerts der Grundgesamtheit auf der Grundlage dieser Stichprobe?
- Da Sie Zugriff auf die Grundgesamtheit haben, simulieren Sie die Stichprobenverteilung für die durchschnittliche Kaltmiete einer im Februar 2020 angebotenen Mietwohnung in Deutschland, indem Sie 5000 Stichproben aus der Grundgesamtheit mit dem Umfang 50 ziehen und 5000 Stichprobenmittelwerte berechnen. Speichern Sie diese Mittelwerte in einem Vektor mit dem Namen `sample_means50`. Zeichnen Sie die Daten auf und beschreiben Sie dann die Form dieser Stichprobenverteilung. Wie hoch schätzen Sie auf der Grundlage dieser Stichprobenverteilung die mittlere Kaltmiete der Grundgesamtheit ein? Berechnen Sie schließlich den Mittelwert der Grundgesamtheit und geben Sie ihn an.
- Ändern Sie den Stichprobenumfang von 50 auf 150, berechnen Sie dann die Stichprobenverteilung mit derselben Methode wie oben und speichern Sie diese Mittelwerte in einem neuen Vektor mit der Bezeichnung `Stichprobenmittelwert150`. Beschreiben Sie die Form dieser Stichprobenverteilung, und vergleichen Sie sie mit der Stichprobenverteilung für einen Stichprobenumfang von 50. Wie hoch schätzen Sie auf der Grundlage dieser Stichprobenverteilung die mittlere Kaltmiete der Grundgesamtheit?
- Welche der Stichprobenverteilungen aus 2 und 3 hat eine geringere Streuung? Wenn es uns darum geht, Schätzungen vorzunehmen, die häufiger nahe am wahren Wert liegen, würden wir dann eine Verteilung mit einer großen oder kleinen Streuung bevorzugen?

In [70]:
# <IHRE LÖSUNG HIER>
kaltmiete_sample1 = kaltmiete.sample(50)

print("Schätzung durchschnittliche Kaltmiete der Wohnungen:", kaltmiete_sample1.mean())

sample_means50 = [kaltmiete.sample(50).mean() for i in range(0, 5000)]

px.histogram(sample_means50).show()

print("Mittelwert Grundgesamtheit:", kaltmiete.mean())

# Die erste Stichprobenverteilung ist annähernd normalverteilt. Die mittlere Kaltmiete der Grundgesamtheit ist hier vermutlich zwischen 635 und 640

sample_means150 = [kaltmiete.sample(150).mean() for i in range(0, 5000)]

# Die zweite Stichprobenverteilung ist ebenfalls annähernd normalverteilt, weist jedoch eine niedrige Streuung. Die Outlier sind auch kleiner
# Die mittlere Kaltmiete der Grundgesamtheit ist hier vermutlich zwischen 645 und 650

px.histogram(sample_means150).show()

# Die zweite Stichprobenverteilung hat eine geringere Streuung. Wir würden eine Verteilung mit einer kleinen Streuung bevorzugen, da dies bedeutet, 
# dass die Datenpunkte näher beieinander liegen und somit die Schätzungen genauer sind. Eine große Streuung würde bedeuten, 
# dass die Datenpunkte weiter voneinander entfernt sind und die Schätzungen weniger genau sind.

Schätzung durchschnittliche Kaltmiete der Wohnungen: 677.8423999999999


Mittelwert Grundgesamtheit: 652.2519150224555


---

Diese Übung ist eine deutsche Übersetzung der Übungen aus OpenIntro Statistics von Andrew Bray und Mine Çetinkaya-Rundel (https://www.openintro.org/book/os/). Die Python Adaption wurde teilweise von David Akman und Imran Ture (www.featureranking.com) übernommen.