# Bearbeitungshinweise
Im Notebook werden verschiedene Fragestellungen an einem Datensatz untersucht. Die Aufgaben, die sie bearbeiten sollen, ergänzen diese Untersuchungen. Unter jeder Aufgabe befindet sich eine (Code-)Zelle, die etwa so aussieht:

In [None]:
# <IHRE LÖSUNG HIER>

Dort tragen Sie bitte ihren Python Code ein. Bei manchen Aufgaben wird auch kein Code verlangt, sondern eine (kurze) Erklärung. In diesem Fall konvertieren Sie die Zelle bitte zu einer Markdown-Zelle ("Esc" und dann "M" drücken - "Esc" und dann "Y" konvertiert wieder zu einer Code-Zelle) und tragen dort Ihre Antwort ein.

Falls Sie keine lokale Python Installation haben, können Sie das Notebook auch in Google Colab öffnen und bearbeiten (Google Account benötigt):

<a target="_blank" href="https://colab.research.google.com/github/djanka2/statistik-uebungen/blob/main/06%20-%20Konfidenzintervalle.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

---

# Übung 6: Grundlagen der schließenden Statistik - Konfidenzintervalle

## Stichproben aus den Immoscout Daten

Wenn man Zugang zu Daten über eine gesamte Population hat, z. B. über die Größe aller Mietwohnungen in Deutschland, ist es einfach, Fragen wie "Wie groß ist eine typische Mietwohnung in Deutschland?" und "Wie stark variieren die Größen von Mietwohnungen?" zu beantworten. Wenn Sie nur Zugang zu einer Stichprobe der Grundgesamtheit haben, was häufig der Fall ist, wird die Aufgabe komplizierter. Was ist Ihre beste Schätzung für die typische Größe, wenn Sie nur die Größen von einigen Dutzend Wohnungen kennen? In einer solchen Situation müssen Sie Ihre Stichprobe nutzen, um Rückschlüsse auf die Grundgesamtheit zu ziehen.

## Die Daten

In der vorangegangenen Übung "Stichprobenverteilungen" haben wir uns die Grundgesamtheit von Mietwohnungen, die im Februar 2020 auf Immoscout angeboten wurden, angesehen. Beginnen wir mit dem Laden dieses Datensatzes.

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px

immo = pd.read_csv("https://raw.githubusercontent.com/djanka2/statistik-uebungen/main/Daten/immo.csv")

In dieser Übung beginnen wir mit einer einfachen Zufallsstichprobe der Größe 60 aus der Grundgesamtheit. Der Datensatz enthält mehr Informationen über die Wohnungen, aber wir konzentrieren uns auf die Größe des Wohnung, dargestellt durch die Variable `Wohnfläche`.

In [None]:
population = immo['Wohnfläche']
samp = population.sample(60)

### ✏️ Aufgabe 1
Beschreiben Sie die Verteilung Ihrer Stichprobe. Was würden Sie sagen, ist die "typische" Wohnfläche innerhalb Ihrer Stichprobe? Geben Sie auch genau an, was Sie unter "typisch" verstehen.

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 2
Würden Sie erwarten, dass die Verteilung eines/einer anderen Studierenden mit der Ihren identisch ist? Würden Sie erwarten, dass sie ähnlich ist? Warum oder warum nicht?

In [None]:
# <IHRE LÖSUNG HIER>

## Konfidenzintervalle

Eine der gebräuchlichsten Methoden zur Beschreibung des typischen oder zentralen Wertes einer Verteilung ist die Verwendung des Mittelwertes. Wir können hier den Mittelwert der Stichprobe berechnen:

In [None]:
sample_mean = samp.mean()

Kehren wir für einen Moment zur ursprünglichen Frage dieser Übung zurück: Was können wir auf der Grundlage dieser Stichprobe über die Grundgesamtheit aussagen? Auf der Grundlage dieser einzigen Stichprobe wäre die beste Schätzung der durchschnittlichen Wohnfläche der Mietwohnungen auf Immoscout der Stichprobenmittelwert, der normalerweise als $\bar{x}$ bezeichnet wird (hier nennen wir ihn "Stichprobenmittelwert"). Das ist eine gute *Punktschätzung*, aber es wäre nützlich, auch mitzuteilen, wie unsicher wir bei dieser Schätzung sind. Dies kann mit Hilfe eines *Konfidenzintervalls* erfasst werden.

Wir können ein 95 %-Konfidenzintervall für einen Stichprobenmittelwert berechnen, indem wir 1.96 Standardfehler ($\tilde{s}/\sqrt{N}$) zur Punktschätzung addieren und subtrahieren (1.96 ist das 97.5% Quantil der Standardnormalverteilung, siehe Vorlesung Kapitel "Parameterschätzung").

In [None]:
se = np.std(samp)/np.sqrt(60)
lower = sample_mean - (1.96 * se)
upper = sample_mean + (1.96 * se)
print(lower, upper)

Wir haben gerade eine wichtige Schlussfolgerung gezogen: Obwohl wir nicht wissen, wie die Gesamtbevölkerung aussieht, sind wir zu 95 % sicher, dass die tatsächliche Durchschnittsgröße der Mietwohnungen zwischen dem unteren und oberen Wert liegt. Es gibt einige Bedingungen, die erfüllt sein müssen, damit dieses Intervall gültig ist.

### ✏️ Aufgabe 3
Damit das Konfidenzintervall gültig ist, muss der Stichprobenmittelwert normalverteilt sein und Standardfehler $s/\sqrt{N}$ haben. Welche Bedingungen müssen erfüllt sein, damit dies zutrifft?

In [None]:
# <IHRE LÖSUNG HIER>

## Konfidenzniveaus

### ✏️ Aufgabe 4
Was bedeutet "95%ige Sicherheit"? Wenn Sie sich nicht sicher sind, schlagen Sie in den Vorlesungsunterlagen, Kapitel "Parameterschätzung" nach.

In [None]:
# <IHRE LÖSUNG HIER>

In diesem Fall haben wir den Vorteil, den wahren Mittelwert der Grundgesamtheit zu kennen, da wir Daten über die gesamte Grundgesamtheit haben. Dieser Wert kann mit dem folgenden Befehl berechnet werden:

In [None]:
population.mean()

### ✏️ Aufgabe 5
Erfasst Ihr Konfidenzintervall die wahre durchschnittliche Größe der Mietwohnungen? Wenn Sie die Aufgabe während der Übung an der Hochschule bearbeiten: erfasst das Intervall Ihres Tischnachbarn diesen Wert?

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 6
Jede/r Studierende des Kurses sollte ein etwas anderes Konfidenzintervall erhalten haben. Von welchem Anteil dieser Intervalle würden Sie erwarten, dass sie den wahren Mittelwert der Grundgesamtheit enthalten? Und warum? Wenn Sie diese Übung an der Hochschule durchführen, sammeln Sie Daten zu den Intervallen, die von anderen Studierenden des Kurses erstellt wurden, und berechnen Sie den Anteil der Intervalle, die den wahren Mittelwert der Grundgesamtheit erfassen.

In [None]:
# <IHRE LÖSUNG HIER>

Mit Hilfe von Python werden wir viele Stichproben erzeugen, um mehr darüber zu lernen, wie Stichprobenmittelwerte und Konfidenzintervalle von einer Stichprobe zur anderen variieren.

Hier ist der grobe Überblick:
1. Ziehen Sie eine Zufallsstichprobe.
2. Berechnen und speichern Sie den Mittelwert und die Standardabweichung der Stichprobe.
3. Wiederholen Sie die Schritte (1) und (2) 50 Mal.
4. Verwenden Sie diese gespeicherten Statistiken, um viele Konfidenzintervalle zu berechnen.

Bevor wir all dies tun, müssen wir zunächst leere Arrays erstellen, in denen wir die Mittelwerte und Standardabweichungen speichern können, die aus jeder Stichprobe berechnet werden (*Hinweis*: `numpy.zeros()`). Und wenn wir schon dabei sind, sollten wir auch den gewünschten Stichprobenumfang als `n` speichern.

In [None]:
samp_mean = np.zeros(50)
samp_sd = np.zeros(50)
n = 60

Jetzt sind wir bereit für die Schleife, in der wir die Mittelwerte und Standardabweichungen von 50 Stichproben berechnen.

In [None]:
for i in range(50):
    samp = population.sample(n) # eine Stichprobe mit dem Umfang n = 60 aus der Grundgesamtheit zu ziehen
    samp_mean[i] = samp.mean() # Stichprobenmittelwert im i-ten Element von samp_mean speichern
    samp_sd[i] = np.std(samp) # Stichprobenstandardabweichung im i-ten Element von samp_sd speichern

Zum Schluss werden die Konfidenzintervalle berechnet.

In [None]:
se_array = samp_sd/np.sqrt(n)
lower_array = samp_mean - (1.96 * se_array)
upper_array = samp_mean + (1.96 * se_array)

Die unteren Grenzen dieser 50 Konfidenzintervalle werden in `lower_array` gespeichert, und die oberen Grenzen in `upper_array`. Wir betrachten das erste Intervall.

In [None]:
print(lower_array[1], upper_array[1])

---
Der folgende Code zeichnet alle Konfidenzintervalle (`lower_array` und `upper_array`) in schwarz und den Mittelwert der Population in rot.

In [None]:
df = pd.DataFrame({"x": np.hstack([lower_array,upper_array]), 
                   "y": np.hstack([np.arange(50),np.arange(50)]), 
                   "interval": np.hstack([np.arange(50),np.arange(50)])})
fig = px.line(df, x="x", y="y", color="interval", height=1000, color_discrete_sequence=["black"])
fig.add_vline(population.mean(), line_color="red")

### ✏️ Aufgabe 7
Welcher Anteil der Konfidenzintervalle schließt den wahren Mittelwert der Grundgesamtheit ein? Ist dieser Anteil genau gleich dem Konfidenzniveau? Wenn nicht, erklären Sie warum.

In [None]:
# <IHRE LÖSUNG HIER>

### ✏️ Aufgabe 8
- Wählen Sie ein beliebiges Konfidenzniveau (außer 95%). Bestimmen Sie für dieses Niveau das benötigte Quantil der Normalverteilung (siehe Vorlesungsunterlagen).
- Berechnen Sie 50 Konfidenzintervalle für das Konfidenzniveau, das Sie in der vorherigen Frage gewählt haben. Sie brauchen keine neuen Stichproben zu nehmen, sondern berechnen einfach neue Intervalle auf der Grundlage der Mittelwerte und Standardabweichungen der Stichproben, die Sie bereits gesammelt haben. Plotten Sie alle Intervalle und berechnen Sie den Anteil der Intervalle, die den wahren Mittelwert der Grundgesamtheit einschließen. Wie verhält sich dieser Anteil zu dem für die Intervalle gewählten Konfidenzniveau?

In [None]:
# <IHRE LÖSUNG HIER>

---

Diese Übung ist eine deutsche Übersetzung der Übungen aus OpenIntro Statistics von Andrew Bray und Mine Çetinkaya-Rundel (https://www.openintro.org/book/os/). Die Python Adaption wurde teilweise von David Akman und Imran Ture (www.featureranking.com) übernommen.