# Grundlagen der schließenden Statistik - Konfidenzintervalle

## Stichproben aus den Immoscout Daten

Wenn man Zugang zu Daten über eine gesamte Population hat, z. B. über die Größe aller Mietwohnungen in Deutschland, ist es einfach, Fragen wie "Wie groß ist eine typische Mietwohnung in Deutschland?" und "Wie stark variieren die Größen von Mietwohnungen?" zu beantworten. Wenn Sie nur Zugang zu einer Stichprobe der Grundgesamtheit haben, was häufig der Fall ist, wird die Aufgabe komplizierter. Was ist Ihre beste Schätzung für die typische Größe, wenn Sie nur die Größen von einigen Dutzend Wohnungen kennen? In einer solchen Situation müssen Sie Ihre Stichprobe nutzen, um Rückschlüsse auf die Grundgesamtheit zu ziehen.

## Die Daten

Im vorangegangenen Praktikum "Stichprobenverteilungen" haben wir uns die Grundgesamtheit von Mietwohnungen, die im Februar 2020 auf Immoscout angeboten wurden, angesehen. Beginnen wir mit dem Laden dieses Datensatzes.

In [1]:
import numpy as np
import pandas as pd
import plotly.express as px

immo = pd.read_csv("Daten/immo.csv")

In dieser Übung beginnen wir mit einer einfachen Zufallsstichprobe der Größe 60 aus der Grundgesamtheit. Der Datensatz enthält mehr Informationen über die Wohnungen, aber wir konzentrieren uns auf die Größe des Wohnung, dargestellt durch die Variable `Wohnfläche`.

In [2]:
population = immo['Wohnfläche']
samp = population.sample(60)

### ✏️ Aufgabe 1
Beschreiben Sie die Verteilung Ihrer Stichprobe. Was würden Sie sagen, ist die "typische" Wohnfläche innerhalb Ihrer Stichprobe? Geben Sie auch genau an, was Sie unter "typisch" verstehen.

In [6]:
px.histogram(samp)

Mit typischer Wohnfläche beschreiben wir den größten Wert (Modus) also eine Fläche von 50 bis 60 quadratmeter

### ✏️ Aufgabe 2
Würden Sie erwarten, dass die Verteilung eines anderen Studenten mit der Ihren identisch ist? Würden Sie erwarten, dass sie ähnlich ist? Warum oder warum nicht?

Da dies eine geringe Submenge ist kann diese Stark variieren und die Ergebnisse können sehr unterschiedlich aussehen.
Sollte man aber den Vergleich mehrmals durchführen entstehen ähnliche Werteverteilungen

## Konfidenzintervalle

Eine der gebräuchlichsten Methoden zur Beschreibung des typischen oder zentralen Wertes einer Verteilung ist die Verwendung des Mittelwertes. Wir können hier den Mittelwert der Stichprobe berechnen:

In [7]:
sample_mean = samp.mean()

Kehren wir für einen Moment zur ursprünglichen Frage dieser Übung zurück: Was können wir auf der Grundlage dieser Stichprobe über die Grundgesamtheit aussagen? Auf der Grundlage dieser einzigen Stichprobe wäre die beste Schätzung der durchschnittlichen Wohnfläche der Mietwohnungen auf Immoscout der Stichprobenmittelwert, der normalerweise als $\bar{x}$ bezeichnet wird (hier nennen wir ihn "Stichprobenmittelwert"). Das ist eine gute *Punktschätzung*, aber es wäre nützlich, auch mitzuteilen, wie unsicher wir bei dieser Schätzung sind. Dies kann mit Hilfe eines *Konfidenzintervalls* erfasst werden.

Wir können ein 95 %-Konfidenzintervall für einen Stichprobenmittelwert berechnen, indem wir 1.96 Standardfehler ($\tilde{s}/\sqrt{N}$) zur Punktschätzung addieren und subtrahieren (1.96 ist das 97.5% Quantile der Standardnormalverteilung, siehe Vorlesung Kapitel "Parameterschätzung").

In [8]:
se = np.std(samp)/np.sqrt(60)
lower = sample_mean - (1.96 * se)
upper = sample_mean + (1.96 * se)
print(lower, upper)

61.306115521580686 71.2218844784193


Wir haben gerade eine wichtige Schlussfolgerung gezogen: Obwohl wir nicht wissen, wie die Gesamtbevölkerung aussieht, sind wir zu 95 % sicher, dass die tatsächliche Durchschnittsgröße der Mietwohnungen zwischen dem unteren und oberen Wert liegt. Es gibt einige Bedingungen, die erfüllt sein müssen, damit dieses Intervall gültig ist.

### ✏️ Aufgabe 3
Damit das Konfidenzintervall gültig ist, muss der Stichprobenmittelwert normalverteilt sein und Standardfehler $s/\sqrt{N}$ haben. Welche Bedingungen müssen erfüllt sein, damit dies zutrifft?

Die einzelnen Zeilenwerte müssen voneinander uabhängig sein und es muss ein Mindestanzahl an samples erfüllt sein

## Konfidenzniveaus

### ✏️ Aufgabe 4
Was bedeutet "95%ige Sicherheit"? Wenn Sie sich nicht sicher sind, schlagen Sie in den Vorlesungsunterlagen, Kapitel "Parameterschätzung" nach.

Dass die Wahrscheinlichkeit dass der Tatsächliche Mittelwert außerhalb der Schätzung liegt 5 % beträgt

In diesem Fall haben wir den Vorteil, den wahren Mittelwert der Grundgesamtheit zu kennen, da wir Daten über die gesamte Grundgesamtheit haben. Dieser Wert kann mit dem folgenden Befehl berechnet werden:

In [9]:
population.mean()

72.51919627087854

### ✏️ Aufgabe 5
Erfasst Ihr Konfidenzintervall die wahre durchschnittliche Größe der Mietwohnungen? Wenn Sie die Aufgabe während der Übung an der Hochschule bearbeiten: erfasst das Intervall Ihres Tischnachbarn diesen Wert?

Nein umfasst nicht diese Größe

### ✏️ Aufgabe 6
Jede/r Studierende des Kureses sollte ein etwas anderes Konfidenzintervall erhalten haben. Von welchen Anteil dieser Intervalle würden Sie erwarten, dass sie den wahren Mittelwert der Grundgesamtheit enthalten? Und warum? Wenn Sie diese Übung an der Hochschule durchführen, sammeln Sie Daten zu den Intervallen, die von anderen Studierenden des Kurses erstellt wurden, und berechnen Sie den Anteil der Intervalle, die den wahren Mittelwert der Grundgesamtheit erfassen.

Den wahren Mittelwert gut 95% der Studierenden erreichen

Mithilfe von Python werden wir viele Stichproben erzeugen, um mehr darüber zu erfahren, wie Stichprobenmittelwerte und Konfidenzintervalle von einer Stichprobe zur anderen variieren.

Hier ist der grobe Überblick:
* Ziehen Sie eine Zufallsstichprobe.
* Berechnen und speichern Sie den Mittelwert und die Standardabweichung der Stichprobe.
* Wiederholen Sie die Schritte (1) und (2) 50 Mal.
* Verwenden Sie diese gespeicherten Statistiken, um viele Konfidenzintervalle zu berechnen.

Bevor wir all dies tun, müssen wir zunächst leere Arrays erstellen, in denen wir die Mittelwerte und Standardabweichungen speichern können, die aus jeder Stichprobe berechnet werden (*Hinweis*: `numpy.zeros()`). Und wenn wir schon dabei sind, sollten wir auch den gewünschten Stichprobenumfang als `n` speichern.

In [10]:
samp_mean = np.zeros(50)
samp_sd = np.zeros(50)
n = 60

Jetzt sind wir bereit für die Schleife, in der wir die Mittelwerte und Standardabweichungen von 50 Stichproben berechnen.

In [11]:
for i in range(50):
    samp = population.sample(n) # eine Stichprobe mit dem Umfang n = 60 aus der Grundgesamtheit zu ziehen
    samp_mean[i] = samp.mean() # Stichprobenmittelwert im i-ten Element von samp_mean speichern
    samp_sd[i] = np.std(samp) # Stichprobenstandardabweichung im i-ten Element von samp_sd speichern

Zum Schluss werden die Konfidenzintervalle berechnet.

In [12]:
se_array = samp_sd/np.sqrt(n)
lower_array = samp_mean - (1.96 * se_array)
upper_array = samp_mean + (1.96 * se_array)

Die unteren Grenzen dieser 50 Konfidenzintervalle werden in `lower_array` gespeichert, und die oberen Grenzen in `upper_array`. Wir betrachten das erste Intervall.

In [13]:
print(lower_array[1], upper_array[1])

66.94573519458741 86.09226480541257


---
### ✏️ Aufgabe 7
Zeichnen Sie alle Konfidenzintervalle (`lower_vector` und `upper_vector`). Welcher Anteil der Konfidenzintervalle schließt den wahren Mittelwert der Grundgesamtheit ein? Ist dieser Anteil genau gleich dem Konfidenzniveau? Wenn nicht, erklären Sie warum.

### ✏️ Aufgabe 8
- Wählen Sie ein beliebiges Konfidenzniveau (außer 95%). Bestimmen Sie für dieses Niveau das benötigte Quantil der Normalverteilung (siehe Vorlesungsunterlagen).
- Berechnen Sie 50 Konfidenzintervalle für das Konfidenzniveau, das Sie in der vorherigen Frage gewählt haben. Sie brauchen keine neuen Stichproben zu nehmen, sondern berechnen einfach neue Intervalle auf der Grundlage der Mittelwerte und Standardabweichungen der Stichproben, die Sie bereits gesammelt haben. Zeichnen Sie alle Intervalle auf und berechnen Sie den Anteil der Intervalle, die den wahren Mittelwert der Grundgesamtheit einschließen. Wie verhält sich dieser Anteil zu dem für die Intervalle gewählten Konfidenzniveau?

---

Diese Übung ist eine deutsche Übersetzung der Übungen aus OpenIntro Statistics von Andrew Bray und Mine Çetinkaya-Rundel (https://www.openintro.org/book/os/). Die Python Adaption wurde teilweise von David Akman und Imran Ture (www.featureranking.com) übernommen.

Aufgabe 7

In [15]:
px.histogram(lower_array)

In [16]:
px.histogram(upper_array)