In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as sps

### Przedziały ufności dla wartości oczekiwanej

Próba losowa pochodzi z populacji o rozkładzie normalnym $\mathcal{N}(\mu, \sigma)$, gdzie $\mu$ jest nieznane, natomiast znamy odchylenie standardowe $\sigma$. Średnia arytmetyczna z próby ma rozkład $\mathcal{N}(\mu, \frac{\sigma}{\sqrt{n}})$. Standaryzując średnią otrzymamy statystykę:
$$
Z = \frac{\hat{x} - \mu}{\sigma} \sqrt{n}
$$
która ma standardowy rozkład normalny $\mathcal{N}(0,1)$. Dla ustalonego współczynnika ufności $1-\alpha$ szukamy liczbę $z_{\alpha}$ taką, że:
$$
P (-z_{\alpha} < Z < z_{\alpha}) = 1 - \alpha
$$
Po odpowiednich przekształceniach otrzymujemy:
$$
P (\hat{x} - z_{\alpha} \frac{\sigma}{\sqrt{n}} < \mu < \hat{x} + z_{\alpha} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha
$$

Przykład. Czas świecenia żarówek jest zmienną losową o rozkładzie normalnym $\mathcal{N}(\mu, 50)$. Z partii towaru żarówek pobrano próbkę 9 żarówek i otrzymano średni czas świecenia $\hat{x} = 2880$ godzin. Policz przedział ufności dla średniego czasu świecenia żarówek przy $95\%$ współczynniku ufności.

W praktyce jednak rzadko się zdarza, że znamy wariancję populacji generalnej. Gdy próba losowa pochodzi z populacji o rozkładzie normalnym $\mathcal{N}(\mu, \sigma)$, gdzie $\mu$ i $\sigma$ są nieznane, wówczas korzystamy ze statystyki
$$
t = \frac{\hat{x} - \mu}{s} \sqrt{n-1}
$$
która ma rozkład t-Studenta z $n-1$ stopni swobody. Parametr $s$ oznacza odchylenie standardowe z próby.
Po odpowiednich przekształceniach otrzymujemy:
$$
P (\hat{x} - t_{\alpha, n-1} \frac{s}{\sqrt{n-1}} < \mu < \hat{x} + t_{\alpha, n-1} \frac{s}{\sqrt{n-1}}) = 1 - \alpha
$$

Wracając do poprzedniego przykładu, załóżmy, że odchylenie standardowe z próby wynosi $s = 50$ godzin.

W praktyce również niezbyt często zdarza się, że wiemy coś na temat rozkładu badanego zjawiska. W poprzednich ćwiczeniach (symulacja Monte Carlo) widzieliśmy jednak, że rozkład średniej z próby (przy wystarczająco dużej ilości eksperymentów) przypomina rozkład normalny. Możemy zatem przyjąć, że przedział ufności wynosi w przybliżeniu:
$$
P (\hat{x} - z_{\alpha} \frac{s}{\sqrt{n}} < \mu < \hat{x} + z_{\alpha} \frac{s}{\sqrt{n}}) \simeq 1 - \alpha
$$
przy odpowiednio dużej próbie (w literaturze przyjmuje się $n>120$, ale im więcej tym lepiej).

Względną precyzję oszacowania obliczamy jako:
$$
B(\hat{x}) = \frac{z_\alpha s}{\hat{x} \sqrt{n}} * 100\%
$$
Przyjmuje się, żę poniżej $5\%$ mamy dużą precyzję oszacowania, a między $5\%$ a $10\%$ akceptowalną precyzję.

Zadanie 1. Wczytaj zbiór danych *tips*. Policz $99\%$ przedział ufności dla średniej wielkości napiwków.

Zadanie 2. Aby zwiększyć precyzję oszacowania możemy albo zwiększyć próbę albo zmniejszyć współczynnik ufności.
 - Zbadaj jak zmienia się precyzja oszacowania dla współczynnika ufności od $0\%$ do $100\%$.
 - Ile obserwacji powinna mieć próba, aby precyzja wynosiła mniej niż $1\%$?

### Przedziały ufności dla wariancji i odchylenia standardowego

Próba losowa pochodzi z populacji o rozkładzie normalnym $\mathcal{N}(\mu, \sigma)$, gdzie $\mu$ oraz $\sigma$ są nieznane. Wówczas wariancja z próby $s^2$ ma rozkład $\chi^2$ z $n-1$ stopniami swobody. Wzór na przedział ufności dla wariancji $\sigma^2$ można wyprowadzić z następującej zależności:
$$
P \left( \chi^2_{1-\alpha/2, n-1} < \frac{(n-1) s^2}{\sigma^2} < \chi^2_{\alpha/2, n-1} \right) = 1 - \alpha
$$

Po przekształceniach otrzymujemy przedział ufności dla $\sigma^2$:
$$
\left( \frac{(n-1) s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1) s^2}{\chi^2_{1-\alpha/2, n-1}} \right)
$$

Odchylenie standardowe $\sigma$ jest pierwiastkiem z wariancji, więc przedział ufności dla $\sigma$ ma postać:
$$
\left( \sqrt{\frac{(n-1) s^2}{\chi^2_{\alpha/2, n-1}}}, \sqrt{\frac{(n-1) s^2}{\chi^2_{1-\alpha/2, n-1}}} \right)
$$

Przykład. Wylosowano 5 worków cementu. Ich waga w kg wynosiła: $50.2, 50.3, 50.5, 50.5, 50.4$. Ile wynosi przedział ufności dla odchylenia standardowego na poziomie ufności $90\%$?

Gdy liczność próby jest duża ($n > 30$), rozkład $\chi^2$ dąży do rozkładu normalnego. W takim przypadku można zastosować statystykę:
$$
Z = \frac{S - \sigma}{\sigma} \sqrt{2n}
$$

Przedział ufności dla odchylenia standardowego wynosi wówczas:
$$
P (s - z_{\alpha} \frac{s}{\sqrt{2n}} < \sigma < s + z_{\alpha} \frac{s}{\sqrt{2n}}) \simeq 1 - \alpha
$$

Zadanie 3. Wczytaj zbiór danych *tips*. Policz $99\%$ przedział ufności dla odchylenia standardowego wielkości napiwków.

Zadanie 4. Zbadaj jak zmienia się precyzja oszacowania dla współczynnika ufności od $0\%$ do $100\%$.

### Przedziały ufności dla odsetka struktury

W zbiorach danych często mamy cechy nieliczbowe, np. płeć, wykształcenie, województwo. Możemy wówczas policzyć odsetek osób z daną cechą i budować przedział ufności dla odsetka z populacji generalnej. Niech $p$ oznacza prawdopodobieństwo wylosowania danej cechy w populacji generalnej, $n$ oznacza liczebność wylosowanej próby, $m$ oznacza ilość osób posiadających daną cechę. Wówczas $m/n$ jest odsetkiem z próby. Dla dużych prób ($n>100$) statystyka $m/n$ ma rozkład normalny o parametrach
$$
\mathcal{N} \left( p, \sqrt{\frac{p(1-p)}{n}} \right)
$$

Standaryzując $m/n$ otrzymujemy:
$$
Z = \frac{\frac{m}{n} - p}{\sqrt{\frac{p(1-p)}{n}}}
$$

która ma standardowy rozkład normalny $\mathcal{N}(0,1)$. Dla ustalonego współczynnika ufności $1-\alpha$ szukamy liczbę $z_{\alpha}$ taką, że:
$$
P (-z_{\alpha} < Z < z_{\alpha}) = 1 - \alpha
$$
Po odpowiednich przekształceniach mamy przedział ufności:
$$
P \left( \frac{m}{n} - z_\alpha \sqrt{\frac{p(1-p)}{n}} < p < \frac{m}{n} + z_\alpha \sqrt{\frac{p(1-p)}{n}} \right)
$$
Widzimy zatem, że granice przedziału ufności są zależne od $p$, którego nie znamy. Ale dla duzych prób możemy założyć, że $p \simeq m/n$.

Przykład. W firmie pracuje 10000 pracowników. Do anonimowej ankiety wylosowano 200 pracowników z pytaniem czy w ciągu następnych 6 miesięcy planują zmienić pracę. 30 osób odpowiedziało, że tak. Chcemy oszacować przedział ufności dla odsetka wszystkich osób w firmie, które planują zmienić pracę. Przyjmijmy poziom ufności $1-\alpha = 90\%$.

Zadanie 5. Wczytaj zbiór danych *tips*. Policz $95\%$ przedział ufności dla odsetka mężczyzn płacących za posiłek w restauracji.

Zadanie 6. Sprawdź jak zmienia się precyzja oszacowania dla różnych parametrów $\alpha$ oraz dla różnych wielkości próby $n$.