# <span style="color:rgb(160,0,86)">Schätzverfahren</span>

***

## <span style="color:rgb(160,0,86)">Lernziele</span>

- Sie wissen was eine statistische Einheit ist und können ihre Merkmale bezüglich ihrer Ausprägungen unterscheiden.
- Sie kennen die Python Module *numpy* und *pandas*.  
- Sie können Daten laden und einfache Operationen ausführen.  

***

### <span style="color:rgb(160,0,86)">Was sind Schätzverfahren?</span>

Die **Schätztheorie** ist ein Teilgebiet der Statistik. Mit mathematischen Verfahren sollen *unbekannte Verteilungsparameter* (mittlere Lage, Streuung, etc.) einer Grundgesamtheit auf Basis von Zufallsstichproben *geschätzt werden*. Es wird zwischen **Punktschätzugen** und **Intervallschätzungen** unterschieden.

<span style="color:rgb(160,0,86)">***Punktschätzer:***</span> Ein Punktschätzer gibt **einen einzelnen Wert** als Schätzung für einen unbekannten Parameter an.

- *Beispiel:* Der **Mittelwert** $\pmb{\bar{x}}$ einer Stichprobe als Schätzung für den wahren **Mittelwert** $\pmb{\mu}$ der Grundgesamtheit. Die **relative Häufigkeit** $\pmb{h(\;)}$ in einer Stichprobe als Schätzung für die tatsächliche **Wahrscheinlichkeit** $\pmb{P(\;)}$ in der Grundgesamtheit.
- *Vorteil:* Einfach und direkt interpretierbar.
- *Nachteil:* Enthält keine Information über die Unsicherheit der Schätzung.

Ein Punktschätzer ist wie eine einzelne Zahl auf einer Zielscheibe – er kann genau treffen oder danebenliegen.


<span style="color:rgb(160,0,86)">***Intervallschätzer:***</span> Ein Intervallschätzer gibt **ein Intervall** an, in dem der wahre Parameter mit einer bestimmten Wahrscheinlichkeit liegt.

- *Beispiel:* Ein **95%-Konfidenzintervall** $\pmb{[x_{\text{min}},x_{\text{max}}]}$ für den Mittelwert gibt an, in welchem Bereich der wahre Mittelwert der Grundgesamtheit mit einer Wahrscheinlichkeit von 95% liegt.
- *Vorteil:* Enthält Informationen über die Unsicherheit der Schätzung.
- *Nachteil:* Komplexer als ein einzelner Punktwert.

Ein Intervallschätzer ist wie ein Zielfernrohr, das eine gewisse Streuung zulässt – es gibt nicht nur eine Zahl, sondern einen Bereich möglicher Werte.

### <span style="color:rgb(160,0,86)">Wie werden Punktschätzer festgelet?</span>

Häufig werden Punktschätzer mit einer der folgenden Methoden bestimmt.

<span style="color:rgb(160,0,86)">***Kleinste-Quadrate-Schätzung LSE:***</span>

Man macht keine Annahmen über die Verteilung in der Grundgesamtheit und zieht eine Zufallsstichprobe $x_1,x_2,\ldots,x_n$. 

- *Ziel:* Die Summe der quadrierten Fehler zwischen den beobachteten Werten und dem vorhergesagten Wert werden minimiert. Der **Schätzer** $\pmb{\hat{\mu}}$ für den Mittelwert $\mu$ einer Grundgesamtheit hat also die Eigenschaft, dass für die gegebene Stichprobe die Zahl $$(x_1-\pmb{\hat{\mu}})^2 + (x_2-\pmb{\hat{\mu}})^2 + (x_3-\pmb{\hat{\mu}})^2 + \cdots + (x_n-\pmb{\hat{\mu}})^2$$ minimal ist. Mit den Methoden der Analysis folgt, dass $$\pmb{\hat{\mu}} = \frac{1}{n}(x_1 + x_2 + x_3 + \cdots + x_n)$$ gerechnet werden muss. Der Mittelwert $\mu$ wird also mit dem **arithmetischen Mittel** geschätzt.


<span style="color:rgb(160,0,86)">***Maximum-Likelihood-Schätzung MLE:***</span>

Man nimmt an, dass die Daten der Grundgesamtheit aus einer bestimmten Verteilung stammen (z.B. Normalverteilung, Binomialverteilung, Poissonverteilung etc.) und zieht eine Zufallsstichprobe $x_1,x_2,\ldots,x_n$. Der Parameter $\mu$ dieser Verteilung ist aber unbekannt.  

- *Ziel:* Die Likelihood-Funktion $L(\mu|x_1,x_2,x_3,\ldots,x_n)$ gibt an, wie wahrscheinlich die Daten $x_1,x_2,\ldots,x_n$ der Stichprobe für verschiedene Parameterwerte $\mu$ der gewählten Verteilung sind. Den Schätzer $\pmb{\hat{\mu}}$ für den Parameter $\mu$ bestimmt man so, dass die Likelihood-Funktion $L$ am grössten ist. Das bedeutet also, dass der Parameter $\pmb{\hat{\mu}}$ die beobachteten Daten am wahrscheinlichsten erklärt. Wenn man zum Beispiel davon aus geht, dass die Daten Normalverteilt sind, dann folt mit den Methoden der Analysis, dass $$\pmb{\hat{\mu}} = \frac{1}{n}(x_1 + x_2 + x_3 + \cdots + x_n)$$ gerechnet werden muss. Der Mittelwert $\mu$ muss also auch mit dem **arithmetischen Mittel** geschätzt werden.


### <span style="color:rgb(160,0,86)">Welche Eingenschaften sollten Punktschätzer haben?</span>

- Eine Schätzer heisst **konsistent**, wenn mit zunehmendem Stichprobenumfang $n$ grosse Abweichungen zwischen dem wahren Parameter und dem geschätzten Parameter immer seltener werden.

- Ein Schätzer heisst **erwartungstreu**, wenn er im Mittel über alle Stichproben den wahren Parameter richtig schätzt.

Der *Stichprobenmedian* ist der Median der geordneten Stichprobe. Er ist im Allgemeinen **nicht erwartungstreu** für den wahren Median der Grundgesamtheit, dennoch ist er **konsistent**, das heisst, für grosse Stichproben nähert er sich dem wahren Median an.

### <span style="color:rgb(160,0,86)">Aufgabe 1</span>

Wir betrachten eine kleine Grundgesamtheit von 5 Personen:

$$\begin{array}{c|cccc}
&\text{PKW-Besitz }Y&\text{Einkünfte }X\\ \hline 
\text{Person A}&1&800\\
\text{Person B}&0&600\\
\text{Person C}&1&900\\
\text{Person D}&1&800\\
\text{Person E}&0&700\\
\end{array}$$

Aus dieser Grundgesamtheit wird eine Stichprobe $(y_1,x_1),(y_2,x_2)$ vom Umfang $n=2$, um den **Anteil PKW-Besitzer** $\pmb{p}$, die **durchschnittlichen Einkünfte** $\pmb{\mu}$ und die **Varianz der Einkünfte** $\pmb{\sigma^2}$ zu schätzen. 

Es werden folgende Schätzer verwendet:
- $\displaystyle\pmb{\hat{p}}=\frac{1}{2}(y_1+y_2)$
- $\displaystyle\pmb{\hat{\mu}}=\frac{1}{2}(x_1+x_2)\rule{0cm}{1.5cm}$
- $\displaystyle\pmb{\hat{\sigma}^2}=\frac{1}{2}\big((x_1-\pmb{\hat{\mu}})^2+(x_2-\pmb{\hat{\mu}})^2)\big)\rule{0cm}{1.5cm}$

1) Bestimmen Sie die wahren Parameter $\pmb{p}$, $\pmb{\mu}$ und $\pmb{\sigma^2}$ in der Grundgesamtheit.
2) Bestimmen Sie die Schätzungen der Parameter für alle möglichen Stichproben mit zurücklegen.
3) Bestimmen Sie die Schätzungen der Parameter für alle möglichen Stichproben ohne zurücklegen.
4) Sind die Schätzer bei 2) und 3) **erwartungstreu**?

In [2]:

import pandas as pd

data = {"Y": [1, 0, 1, 1, 0], "X": [800, 600, 900, 800, 700]}
df = pd.DataFrame(data)

#1
pPKW = sum(df["Y"]) / len(df["Y"])
pIncome = df["X"].mean()
varianceIncome = df["X"].var(ddof=0)

print("Anteil PKW-Besitzer: ", pPKW)
print("Durchscnittseinkommen: ", pIncome)
print("Varianz Einkommen: ", varianceIncome)

#2



{'Y': [1, 0, 1, 1, 0], 'X': [800, 600, 900, 800, 700]}

### <span style="color:rgb(160,0,86)">Welche Punktschätzer werden gebraucht?</span>

Gegeben sei eine Zufallsstichprobe $x_1,x_2,x_3,\ldots,x_n$ vom Umfang $n$ aus einer Grundgesamtheit. Die folgenden Schätzer sind *erwartungstreu*:
- Für den **Mittelwert** $\pmb{\mu}$ brauchen wir $$\pmb{\hat{\mu}}=\frac{1}{n}(x_1+x_2+x_3+\cdots + x_n) $$
- Für die **Varianz** $\pmb{\sigma^2}$ brauchen wir $$\pmb{\hat{\sigma}^2}=\frac{1}{\textcolor{red}{n-1}}\big((x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2+\cdots + (x_n-\bar{x})^2\big) $$

Beachten Sie, dass die **mittlere quadratische Abweichung** $MQD$ *kein* erwartungstreuer Schätzer für die Varianz ist!

### <span style="color:rgb(160,0,86)">Wie werden Intervallschätzer berechnet?</span>

Während bei der Punktschätzung aus einer Zufallsstichprobe $x_1,x_2,x_3,\ldots,x_n$ nur ein punktueller Schätzwert ermittelt wird, informiert eine Intervallschätzung zusätzlich über den **Stichprobenfehler**. Sie stellt also einen Zusammenhang zwischen der Punktschätzung und dem Parameterwert der Grundgesamtheit her.

Bei der Intervallschätzung wird für einen unbekannten Paramter $\pmb{\theta}$ zunächst aus einer Stichprobe eine Punktschätzung $\pmb{\hat{\theta}}$ berechnet, um die herum dann ein (meist symmetrisches) **Konfidenzintervall** konstruiert wird: $$K=[\pmb{\hat{\theta}-\delta},\pmb{\hat{\theta}+\delta}]$$
Dabei wird der Stichprobenfehler $\pmb{\delta}$ so bestimmt, dass das Konfidenzintervall den unbekannten Parameter $\pmb{\theta}$ mit einer vorgegebenen Wahrscheinlichkeit überdeckt: $$P(\theta\in K) = \alpha$$ Diese Wahrscheinlichkeit $\alpha$  heisst **Konfidenzniveau**. Üblicherweise wereden in der Praxis Konfidenzniveaus von 95% oder 99% gewählt.

<center>
<img src="Bilder/Konfidenz.png" width="50%" />
</center>

In der klassischen Statistik wird der Stichprobenfehler $\pmb{\delta}$ für Mittelwerte mathematisch mit Formelen, insbesondere mit der $t$-Verteilung ermittelt: $$ \delta = \big\{(1-\alpha/2)\text{ Quantil von der Verteilung }t(n-1) \big\}\cdot \frac{\hat{\sigma}}{\sqrt{n}}\qquad $$
Dabei wird angenommen, dass die Daten *normalverteilt* sind, was für Stichprobenmittelwerte zutrifft.    


Eine moderne Möglichkeit (mit einem Computer) Konfidenzintervalle zu berechnen bietet das **Bootstrap-Verfahren**. Ein $\pmb{\alpha\%}$**-Konfidenzintervall** eines Parametres sollte im Durchschnitt in $\pmb{\alpha\%}$ der Fälle die gleichen Stichprobenschätzer abdecken, sofern zur Stichprobenerhebung dasselbe Verfahren verwednet wird.

Angenommen wir hätten eine Stichprobe der Grösse $n$ und interessierten uns für einen bestimmen Parameter. Dann können wir mit dem folgenden Algorithmus ein **Bootstrop-Konfidenzintervall** berechnen:

1) Ziehe eine Zufallsstichprobe (ein **Resample**) mit Zurücklegen der Grösse $n$ aus den Daten.
2) Erfasse den im Fokus stehende Parameter für das Resample.
3) Wiederhole die Schritte 1 und 2 viele Male.
4) Zur Ermittlung des $\pmb{\alpha\%}$**-Konfidenzintervall** müssen wir nun $$\big((100-\pmb{\alpha})/2\big)\%$$ der **geordneten** Werte der Resamples an beiden Enden abschneiden.
5) Die zwei Werte, an denen die **geordneten** Werte der Resamples gestutz wurden, bilden die entsprechenden Konfidenzschranken des $\pmb{\alpha\%}$**-Konfidenzintervall**.

### <span style="color:rgb(160,0,86)">Aufgabe 2</span>

Laden Sie die Datei *loans_income.csv* im Ordner Daten und nehmen je 1000  **Zufallsstichproben** vom Umfang $n=4,8,16,32,64,128$ aus diesen Daten. 

- Schätzen Sie den wahren Mittelwert und die wahre Standardabweichung der Löhne mit diesen Stichproben und vergleichen Sie diese Schätzungen mit den wahren Parametern.
- Bestimmen Sie mit Resamples basierend auf einer Stichprobe mit $n=128$ ein 95\%- und ein 99\%-Konfidenzintervall für den Mittelwert der Löhne.  

In [12]:
def sampler_e1(rng, sample_size, values):
    samples_mean = []
    samples_std = []
    for _ in range(rng):
        resample = values.sample(n=sample_size, replace=True)
        sample_weight = resample["x"]
        samples_mean.append(sample_weight.mean())
        samples_std.append(sample_weight.std())

    return samples_mean, samples_std


def printer_e1(sample_size, mean, std):
    print("Berechnung für sample size = ", sample_size, ": ")
    print("Mittelwert: ", round(mean, 2))
    print("Standardabweichung: ", round(std, 2))
    print("")

In [13]:
data = pd.read_csv("Daten/loans_income.csv")

samples_128_mean, samples_128_std = sampler_e1(1000, 128, data)
samples_64_mean, samples_64_std = sampler_e1(1000, 64, data)
samples_32_mean, samples_32_std = sampler_e1(1000, 32, data)
samples_16_mean, samples_16_std = sampler_e1(1000, 16, data)
samples_8_mean, samples_8_std = sampler_e1(1000, 8, data)
samples_4_mean, samples_4_std = sampler_e1(1000, 4, data)

printer_e1(4, sum(samples_4_mean) / len(samples_4_mean), sum(samples_4_std) / len(samples_4_std))
printer_e1(8, sum(samples_8_mean) / len(samples_8_mean), sum(samples_8_std) / len(samples_8_std))
printer_e1(16, sum(samples_16_mean) / len(samples_16_mean), sum(samples_16_std) / len(samples_16_std))
printer_e1(32, sum(samples_32_mean) / len(samples_32_mean), sum(samples_32_std) / len(samples_32_std))
printer_e1(64, sum(samples_64_mean) / len(samples_64_mean), sum(samples_64_std) / len(samples_64_std))
printer_e1(128, sum(samples_128_mean) / len(samples_128_mean), sum(samples_128_std) / len(samples_128_std))



#for sample in samples:
#    confidence_interval = int((100 - 95) / 2)
#    sample.slice(confidence_interval, sample.size - confidence_interval)


Berechnung für sample size =  4 : 
Mittelwert:  69061.43
Standardabweichung:  30023.58

Berechnung für sample size =  8 : 
Mittelwert:  68815.53
Standardabweichung:  31194.2

Berechnung für sample size =  16 : 
Mittelwert:  68442.61
Standardabweichung:  31865.61

Berechnung für sample size =  32 : 
Mittelwert:  68758.55
Standardabweichung:  32467.34

Berechnung für sample size =  64 : 
Mittelwert:  68459.21
Standardabweichung:  32242.84

Berechnung für sample size =  128 : 
Mittelwert:  68616.77
Standardabweichung:  32718.51



### <span style="color:rgb(160,0,86)">Aufgabe 3</span>

Laden Sie die Datei *Palette.sav* im Ordner Daten. In dieser Datei sind **Gewicht**, **Höhe** und **Breite** von 750 Hühnereiern, die von Hühnern der Rasse Loheimer Braun gelegt wurden. Nehmen Sie je 100  **Zufallsstichproben** vom Umfang $n=4,8,16,32,64,128$ aus diesen Daten. 

- Schätzen Sie die wahren Mittelwerte und die wahren Standardabweichungen des Gewichts, der Höhe und der Bereite mit diesen Stichproben und vergleichen Sie diese Schätzungen mit den wahren Parametern.
- Bestimmen Sie mit Resamples basierend auf einer Stichprobe mit $n=128$ ein 95\%- und ein 99\%-Konfidenzintervall für die Mittelwerte und die Standardabweichungen. 

In [18]:
def sampler_e2(rng, sample_size, values):
    samples_weight_mean = []
    samples_weight_std = []
    samples_height_mean = []
    samples_height_std = []
    samples_width_mean = []
    samples_width_std = []
    for _ in range(rng):
        resample = values.sample(n=sample_size, replace=True)

        sample_weight = resample["Gewicht"]
        sample_height = resample["Höhe"]
        sample_width = resample["Breite"]

        samples_height_mean.append(sample_height.mean())
        samples_height_std.append(sample_height.std())
        samples_weight_mean.append(sample_weight.mean())
        samples_weight_std.append(sample_weight.std())
        samples_width_mean.append(sample_width.mean())
        samples_width_std.append(sample_width.std())

    return samples_weight_mean, samples_weight_std, samples_height_mean, samples_height_std, samples_width_mean, samples_width_std


def printer_e2(sample_size, height_mean, height_std, width_mean, width_std, weight_mean, weight_std):
    print("Höhe: ")
    print("Berechnung für sample size = ", sample_size, ": ")
    print("Mittelwert: ", round(height_mean, 2))
    print("Standardabweichung: ", round(height_std, 2))
    print("")
    print("Breite: ")
    print("Berechnung für sample size = ", sample_size, ": ")
    print("Mittelwert: ", round(width_mean, 2))
    print("Standardabweichung: ", round(width_std, 2))
    print("")
    print("Gewicht: ")
    print("Berechnung für sample size = ", sample_size, ": ")
    print("Mittelwert: ", round(weight_mean, 2))
    print("Standardabweichung: ", round(weight_std, 2))
    print("")

In [19]:
import pyreadstat

data, _ = pyreadstat.read_sav("Daten/Palette.sav", apply_value_formats=True)

(
    samples_128_height_mean,
    samples_128_height_std,
    samples_128_weight_mean,
    samples_128_weight_std,
    samples_128_width_mean,
    samples_128_width_std
) = sampler_e2(100, 128, data)

(
    samples_64_height_mean,
    samples_64_height_std,
    samples_64_weight_mean,
    samples_64_weight_std,
    samples_64_width_mean,
    samples_64_width_std
) = sampler_e2(100, 64, data)

(
    samples_32_height_mean,
    samples_32_height_std,
    samples_32_weight_mean,
    samples_32_weight_std,
    samples_32_width_mean,
    samples_32_width_std
) = sampler_e2(100, 32, data)

(
    samples_16_height_mean,
    samples_16_height_std,
    samples_16_weight_mean,
    samples_16_weight_std,
    samples_16_width_mean,
    samples_16_width_std
) = sampler_e2(100, 16, data)

(
    samples_8_height_mean,
    samples_8_height_std,
    samples_8_weight_mean,
    samples_8_weight_std,
    samples_8_width_mean,
    samples_8_width_std
) = sampler_e2(100, 8, data)

(
    samples_4_height_mean,
    samples_4_height_std,
    samples_4_weight_mean,
    samples_4_weight_std,
    samples_4_width_mean,
    samples_4_width_std
) = sampler_e2(100, 4, data)

printer_e2(
    4,
    sum(samples_4_height_mean) / len(samples_4_height_mean),
    sum(samples_4_height_std) / len(samples_4_height_std),
    sum(samples_4_width_mean) / len(samples_4_width_mean),
    sum(samples_4_width_std) / len(samples_4_width_std),
    sum(samples_4_weight_mean) / len(samples_4_weight_mean),
    sum(samples_4_weight_std) / len(samples_4_weight_std)
)

printer_e2(
    8,
    sum(samples_8_height_mean) / len(samples_8_height_mean),
    sum(samples_8_height_std) / len(samples_8_height_std),
    sum(samples_8_width_mean) / len(samples_8_width_mean),
    sum(samples_8_width_std) / len(samples_8_width_std),
    sum(samples_8_weight_mean) / len(samples_8_weight_mean),
    sum(samples_8_weight_std) / len(samples_8_weight_std)
)

printer_e2(
    16,
    sum(samples_16_height_mean) / len(samples_16_height_mean),
    sum(samples_16_height_std) / len(samples_16_height_std),
    sum(samples_16_width_mean) / len(samples_16_width_mean),
    sum(samples_16_width_std) / len(samples_16_width_std),
    sum(samples_16_weight_mean) / len(samples_16_weight_mean),
    sum(samples_16_weight_std) / len(samples_16_weight_std)
)

printer_e2(
    32,
    sum(samples_32_height_mean) / len(samples_32_height_mean),
    sum(samples_32_height_std) / len(samples_32_height_std),
    sum(samples_32_width_mean) / len(samples_32_width_mean),
    sum(samples_32_width_std) / len(samples_32_width_std),
    sum(samples_32_weight_mean) / len(samples_32_weight_mean),
    sum(samples_32_weight_std) / len(samples_32_weight_std)
)

printer_e2(
    64,
    sum(samples_64_height_mean) / len(samples_64_height_mean),
    sum(samples_64_height_std) / len(samples_64_height_std),
    sum(samples_64_width_mean) / len(samples_64_width_mean),
    sum(samples_64_width_std) / len(samples_64_width_std),
    sum(samples_64_weight_mean) / len(samples_64_weight_mean),
    sum(samples_64_weight_std) / len(samples_64_weight_std)
)

printer_e2(
    128,
    sum(samples_128_height_mean) / len(samples_128_height_mean),
    sum(samples_128_height_std) / len(samples_128_height_std),
    sum(samples_128_width_mean) / len(samples_128_width_mean),
    sum(samples_128_width_std) / len(samples_128_width_std),
    sum(samples_128_weight_mean) / len(samples_128_weight_mean),
    sum(samples_128_weight_std) / len(samples_128_weight_std)
)

Höhe: 
Berechnung für sample size =  4 : 
Mittelwert:  62.71
Standardabweichung:  4.48

Breite: 
Berechnung für sample size =  4 : 
Mittelwert:  44.21
Standardabweichung:  1.12

Gewicht: 
Berechnung für sample size =  4 : 
Mittelwert:  57.16
Standardabweichung:  1.84

Höhe: 
Berechnung für sample size =  8 : 
Mittelwert:  62.99
Standardabweichung:  4.5

Breite: 
Berechnung für sample size =  8 : 
Mittelwert:  44.27
Standardabweichung:  1.15

Gewicht: 
Berechnung für sample size =  8 : 
Mittelwert:  57.22
Standardabweichung:  2.09

Höhe: 
Berechnung für sample size =  16 : 
Mittelwert:  62.94
Standardabweichung:  4.69

Breite: 
Berechnung für sample size =  16 : 
Mittelwert:  44.24
Standardabweichung:  1.15

Gewicht: 
Berechnung für sample size =  16 : 
Mittelwert:  57.14
Standardabweichung:  2.08

Höhe: 
Berechnung für sample size =  32 : 
Mittelwert:  62.72
Standardabweichung:  4.73

Breite: 
Berechnung für sample size =  32 : 
Mittelwert:  44.21
Standardabweichung:  1.19

Gewicht: 
B

Unnamed: 0,Nummer,Breite,Höhe,Gewicht
0,10001.0,44.7,58.5,66.5
1,10002.0,44.0,60.1,65.5
2,10003.0,44.4,57.2,63.0
3,10004.0,43.3,59.2,64.5
4,10005.0,45.3,57.6,65.5
...,...,...,...,...
745,10746.0,44.4,55.7,61.5
746,10747.0,44.0,54.4,61.0
747,10748.0,44.6,57.3,66.0
748,10749.0,42.8,57.1,58.5


![HSLU](Bilder/LogoHSLU.png)