In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as sps
import pingouin as pg

### Testy istotności dla wartości średniej

Nie znamy średniej wartości badanej cechy w populacji generalnej, ale mamy próbkę, na podstawie której możemy testować różne hipotezy z określonym prawdopodobieństwem. Proces przebiega bardzo podobnie jak przy kontrukcji przedziałów ufności.

Hipoteza zerowa ($H_0$) średnia wartość w populacji generalnej wynosi $\mu_0$. Hipotezę alternatywną ($H_1$) możemy sformułować na trzy sposoby:
 - średnia wartość w populacji generalnej jest różna od $\mu_0$
 - średnia wartość w populacji generalnej jest większa od $\mu_0$
 - średnia wartość w populacji generalnej jest mniejsza od $\mu_0$.

Statystyka testowa to ustandaryzowana wartość średniej z próby:
 - gdy próba jest mała, $n \leq 120$, to korzystamy ze statystyki $t = \frac{\hat{x} - \mu_0}{s} \sqrt{n-1}$, która ma rozkład t-Studenta o $n-1$ stopniach swobody
 - gdy próba jest duża, $n > 120$, to korzystamy ze statystyki $Z = \frac{\hat{x} - \mu_0}{s} \sqrt{n}$, która ma standardowy rozkład normalny.

Dla ustalonego poziomu istotności $\alpha$ definiujemy obszary krytyczne, w zależności od przyjętej hipotezy alternatywnej:
 - dwustronny obszar krytyczny, $P(|Z| \geq z_\alpha) = \alpha$
 - lewostronny obszar krytyczny, $P(Z \leq z_\alpha) = \alpha$
 - prawostronny obszar krytyczny, $P(Z \geq z_\alpha) = \alpha$

Jeśli statystyka testowa przekracza wartość krytyczną, to odrzucamy hipotezę zerową na rzeczy hipotezy alternatywnej. W przeciwnym wypadku nie mamy podstaw do odrzucenia hipotezy zerowej.

Przykład. Średni dzienny utarg kasyn w okolicy wynosi 10000 zł. Otwieramy własne kasyno i przez 150 dni mierzymy dzienny utarg. Wychodzi nam średnia 9500 zł i odchylenie standardowe 1500 zł. Sprawdźmy hipotezę, czy średni dzienny utarg naszego kasyna jest równy średniemu dziennemu utargowi kasyn z okolicy. Przyjmijmy poziom ufności $95\%$.

In [None]:
# H0:
# H1:

# Statystyka testowa

# Wartość krytyczna

W praktyce często zależy nam na porównaniu dwóch średnich i zbadaniu hipotezy czy dwie populacje różną się między sobą w istotny sposób. Na tym bazują np. *testy A/B* wykorzystywane w marketingu lub w badaniach klinicznych. Mamy dwie populacje oraz dwie próbki, wprowadźmy zatem następujące oznaczenia:
 - $\mu_1, \mu_2$ - nieznane wartości średnie w obu populacjach
 - $n_1, n_2$ - liczebności obu próbek
 - $\hat{x}_1, \hat{x}_2$ - wartości średnie z obu próbek
 - $s_1, s_2$ - odchylenia standardowe z obu próbek.

Ponadto zakładamy, że obie próbki są niezależne. Hipotezy formułujemy następująco:
 - $H_0: \ \mu_1 = \mu_2$
 - $H_1: \ \mu_1 \neq \mu_2$ (lub mniejsza/większa)

Hipotezę zerową, możemy sformułować jako $\mu_1 - \mu_2 = 0$, czyli tak naprawdę badamy czy różnica w średnich jest istotna. Statystyki testowe wynoszą:
$$
Z = \frac{\hat{x}_1 - \hat{x}_2}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}} \sim \mathcal{N}(0,1), \quad \text{gdy obie próby są wystarczająco duże}
$$
oraz
$$
t = \frac{\hat{x}_1 - \hat{x}_2}{\sqrt{\frac{n_1 s^2_1 + n_2 s^2_2}{n_1 + n_2 -2} \left( \frac{1}{n_1} + \frac{1}{n_2} \right) }} \sim t(n_1 + n_2 -2), \quad \text{gdy obie próby pochodzą z rozkładu o takich samych wariancjach}
$$

Przykład. Chcemy zaktualizować wygląd strony internetowej naszego e-sklepu. Dostaliśmy dwa projekty i nie wiemy, który jest lepszy. Przed podjęciem ostatecznej decyzji bierzemy zatem na próbę oba (powiedzmy na 30 dni). Użytkownikom e-sklepu przez miesiąc w sposób losowy są wyświetlane oba warianty:
 - Wariant A został wyświetlony 350 użytkownikom, średnia wartość koszyka wynosiła 550 zł, a odchylenie standardowe 120 zł.
 - Wariant B został wyświetlony 341 użytkownikom, średnia wartość koszyka wynosiła 585 zł, a odchylenie standardowe 74 zł.
Zbadajmy hipotezę, że Wariant B średnio skutkuje większą wartością koszyka niż Wariant A. Przyjmijmy poziom ufności $95\%$.

In [None]:
# H0:
# H1:

# Statystyka testowa

# Wartość krytyczna


Gdy próbki są zależne, to korzystamy z innych wzorów. Taka sytuacja występuje np. w badaniach klinicznych, gdy tych samych pacjentów badamy dwukrotnie: przed podaniem leku oraz po podaniu leku. Wówczas badamy zmianę badanej cechy, np. $x$ oznacza ciśnienie krwi przed podaniem leku, natomiast $y$ oznacza ciśnienie krwi po podaniu leku. Liczymy różnice $z = y - x$ i badamy hipotezę zerową $\mu_z = 0$. Statystyka testowa ma postać:
$$
t = \frac{\hat{z}}{s_z} \sqrt{n-1}
$$

Czasami trzeba zbadać równość średnich w kilku populacjach. Korzystamy wtedy z metod ANOVA (Analysis of Variance).

Zadanie 1. Wczytaj zbiór danych *tips*. Zbadaj następujące hipotezy:
 - kobiety i mężczyźni średnio zostawiają takie same napiwki
 - osoby palące i niepalące średnio zostawiają takie same napiwki
 - podczas kolacji i podczas obiadu klienci średnio zostawiają takie same napiwki

Zadanie 2. Wczytaj zbiór danych *exercise*. Zbadaj następujące hipotezy:
 - czy osoby po posiłku niskotłuszczowym mają taki sam puls 1 minutę i 30 minut po posiłku
 - czy osoby po posiłku beztłuszczowym mają taki sam puls 1 minutę i 30 minut po posiłku

### Testy istotności dla wariancji

Hipoteza zerowa ($H_0$) wariancja wartość w populacji generalnej wynosi $\sigma^2_0$. Hipotezę alternatywną ($H_1$) możemy sformułować na trzy sposoby:
 - wariancja w populacji generalnej jest różna od $\sigma^2_0$
 - wariancja w populacji generalnej jest większa od $\sigma^2_0$
 - wariancja w populacji generalnej jest mniejsza od $\sigma^2_0$.

Statystyka testowa ma postać:
$$
\chi^2 = \frac{ns^2}{\sigma^2_0} = \frac{1}{\sigma^2_0} \sum_{i=1}^n \left( X_i - \hat{X} \right)^2
$$
która ma rozkład $\chi^2$ o $n-1$ stopniach swobody. Dla dużej ilości stopni swobody, rozkład ten dąży do rozkładu normalnego, łatwiej wtedy skorzystać ze statystyki:
$$
Z = \sqrt{2 \chi^2} - \sqrt{2n - 3} \sim \mathcal{N}(0,1)
$$

W praktyce często zależy nam na porównaniu dwóch wariancji i zbadaniu hipotezy czy dwie populacje różną się między sobą w istotny sposób. Sprawdzamy hipotezę zerową $\sigma^2_1 = \sigma^2_2$. Statystyka testowa ma postać $F = s^2_1 / s^2_2$ i ma rozkład F-Snedeckora o $n_1 - 1$ oraz $n_1 - 2$ stopniach swobody.

Czasami trzeba zbadać równość wariancji w kilku populacjach. Korzystamy wtedy z testu Bartletta lub testu Hartleya lub testu Cochrana.

In [None]:
# Kontynuacja przykładu ze sklepem internetowym
# H0:
# H1:

# Statystyka testowa

# Wartość krytyczna


Zadanie 3. Wczytaj zbiór danych *tips*. Zbadaj następujące hipotezy:
 - wariancja napiwków zostawianych przez kobiety i mężczyzn jest taka sama
 - wariancja napiwków zostawianych przez osoby palące i niepalące jest taka sama
 - wariancja napiwków zostawianych obiadu i podczas kolacji jest taka sama

Zadanie 4. Przy testowaniu hipotezy, że średnie w obu populacjach są równe, zakładamy, że wariancja w obu populacjach jest taka sama. W praktyce często się zdarza, że wariancje są różne. W takim przypadku korzystamy z innej wersji testu, tzw. t-test z poprawką Welcha: https://en.wikipedia.org/wiki/Welch%27s_t-test. Wczytaj zbiór danych *iris* i sprawdź czy średnia średnia długość płatków między garunkami *setosa* i *virginica* różni się między sobą w sposób istotny:
 - najpierw zbadaj hipotezę czy obie próbki pochodzą z populacji o jednakowych wariancjach
 - różne wersje t-testu są w bibliotece *scipy.stats*: funkcja *ttest_ind* oraz *ttest_rel*.

### Testy istotności dla odsetka populacji

Badamy jakąś cechę populacji, która nie jest mierzalna w sposób ilościowy, np. płeć, wykształcenie, pytania ankietowe typu tak/nie. Możemy wówczas testować hipotezy sprawdzające, że jakiś procent osób w populacji generalnej posiada wybraną cechę, bazując na proporcjach w wylosowanej próbce. Wprowadźmy następujące oznaczenia:
 - $n$ - ilość wszystkich osób w wylosowanej próbce
 - $m$ - ilość osób w wylosowanej próbce posiadających badaną cechę
 - $p$ - odsetek osób w całej populacji posiadających wybraną cechę.

Hipoteza zerowa ma postać $p = p_0$. Hipotezy alternatywne formułujemy na jeden z trzech sposobów: $\neq, <, >$

Dla dużych próbek współczynnik $m/n$ ma rozkład normalny o średniej $p$ oraz wariancji $p(1-p)/n$. Standaryzujemy zatem ten współczynnik i otrzymujemy statystykę:
$$
Z = \frac{\frac{m}{n} - p_0}{\sqrt{\frac{p_0 (1-p_0)}{n}}} \sim \mathcal{N} (0,1)
$$

Przykład. W firmie pracuje 10000 pracowników. Do anonimowej ankiety wylosowano 150 pracowników z pytaniem czy w ciągu następnych 6 miesięcy planują zmienić pracę. 28 osób odpowiedziało, że tak. Chcemy zbadać hipotezę zerową, że 20% wszystkich pracowników zamierza zmienić pracę (na poziomie istotności $\alpha = 5\%$).

In [None]:
# H0:
# H1:

# Statystyka testowa

# Wartość krytyczna


W praktyce często zależy nam na porównaniu dwóch odestków i zbadaniu hipotezy czy obie grupy różną się między sobą w istotny sposób pod względem liczebności. Sprawdzamy hipotezę zerową $m_1/n_1 = m_2/n_2$. Statystyka testowa ma postać
$$
Z = \frac{ \frac{m_1}{n_1} - \frac{m_2}{n_2}} { \sqrt{\frac{ \frac{m_1 + m_2}{n_1+n_2} \left(1 - \frac{m_1 + m_2}{n_1+n_2} \right)} {\frac{n_1 n_2}{n_1 + n_2}}} } \sim \mathcal{N} \left( 0, 1 \right)
$$

Zadanie 5. Wczytaj zbiór danych *tips*. Zbadaj następujące hipotezy:
 - odsetek kobiet i mężczyzn płacących w restauracji jest taki sam
 - odsetek osób palących i niepalących płacących w restauracji jest taki sam.

### Testy normalności rozkładu

W poprzednich testach często zakładamy, że dane pochodzą z populacji o rozkładzie normalnym. Najprostszym sposobem na sprawdzenie, czy dane mają rozkład normalny jest zrobienie kilku wykresów.

In [3]:
tips = sns.load_dataset("tips")

In [None]:
mean, std = np.mean(tips["total_bill"]), np.std(tips["total_bill"])
x = np.linspace(np.min(tips["total_bill"]), np.max(tips["total_bill"]), 100)
pdf = sps.norm.pdf(x, mean, std)

sns.histplot(
    tips["total_bill"]
    , stat = 'density'
    , kde = True
    , label = 'Gęstość empiryczna'
)
plt.plot(x, pdf, 'r--', label = 'Gęstość teoretyczna')
plt.legend()

In [None]:
sorted_data = np.sort(tips["total_bill"])
y = np.arange(1, len(sorted_data) + 1) / len(sorted_data)
plt.plot(sorted_data, y, marker = '.', linestyle = 'none', label = 'Dystrybuanta empiryczna')

cdf_theoretical = sps.norm.cdf(sorted_data, mean, std)
plt.plot(sorted_data, cdf_theoretical, 'r--', label = 'Dystrybuanta teoretyczna')

plt.legend()

In [None]:
sps.probplot(tips["total_bill"], dist = "norm", plot = plt)

Istnieje kilka rodzajów testów, które weryfikują hipotezę, że wylosowana próbka pochodzi z populacji o rozkładzie normalnym. Najpopularniejsze testy to:
 - test Shapiro-Wilka - bazuje na kwantylach z próby
 - test Jarque-Bery - bazuje na skośności i kurtozie próby
 - test Kołmogorowa-Smirnowa - bazuje na maksymalnej odległości między dystrybuantą z próby a dytrybuantą rozkładu normalnego.

We wszystkich tych testach mamy następujące hipotezy:
 - $H_0$: dane pochodzą z populacji o rozkładzie normalnym
 - $H_1$: dane nie pochodzą z populacji o rozkładzie normalnym

Zadanie 6. Zbadaj czy dane w zbiorze *iris* mają rozkład normalny.

### ANOVA

Wracamy do testowania hipotez dotyczących wartości średniej. Gdy mamy kilka próbek i chcemy porównać czy ich wartości średnie różnią się w sposób istotny między sobą, moglibyśmy wykonać kilka t-testów (dla wszystkich par próbek). Ale nie jest to prawidłowe podejście, ponieważ w każdym teście mamy jakiś poziom istotności, np. 5%. Przy wielokrotnych testach ten *"margines błędu"* będzie się akumulował. Z tego też powodu w regresji liniowej nieistotne zmienne usuwamy pojedynczo z modelu.

W skrócie, testy ANOVA porównują wariancję wewnątrz próbek oraz wariancję pomiędzy próbkami. Mamy następujące hipotezy:
 - $H_0$ - średnie we wszystkich populacjach są równe
 - $H_1$ - co najmniej jedna z populacji ma istotnie inną średnią od pozostałych.

Rodzaje testów ANOVA:
 - ANOVA jednokierunkowa / dwukierunkowa / wielokierunkowa - zakładamy, że wszystkie próbki pochodzą z populacji o rozkładach normalnych oraz jednakowych wariancjach (https://pingouin-stats.org/build/html/generated/pingouin.anova.html)
 - ANOVA z poprawką Welcha - gdy populacje nie mają jednakowych wariancji (analogicznie jak w t-teście z poprawką Welcha) (https://pingouin-stats.org/build/html/generated/pingouin.welch_anova.html)
 - ANOVA dla próbek zależnych (https://pingouin-stats.org/build/html/generated/pingouin.rm_anova.html)
 - test Kruskalla-Wallisa - gdy próbki pochodzą z populacji o dowolnych rozkładzie (https://pingouin-stats.org/build/html/generated/pingouin.kruskal.html)


Jak widzimy, ANOVA mówi nam, że co najmniej jedna grupa różni się od pozostałych pod względem średniej. Ale nie wiemy która grupa konkretnie (może wszystkie?). Do takiej analizy służą testy post-hoc, najpopularniejszym z nich jest Tukey-HSD test (https://pingouin-stats.org/build/html/generated/pingouin.pairwise_tukey.html).

Zadanie 7a. Wczytaj zbiór danych *tips*. Zbadaj następujące hipotezy:
 - średnie napiwki ze względu na płeć i osoba paląca/niepaląca są równe
 - średnie napiwki ze względu na płeć i osoba paląca/niepaląca i rodzaj posiłku (obiad/kolacja) są równe.

Zadanie 7b. Wykonaj wykresy pokazujące różnice między grupami.

Zadanie 7c. Wykonaj testy post-hoc.

### Testy dla zmiennych jakościowych

Do tej głównie pory badaliśmy hipotezy dotyczące danych numerycznych oraz ich statystyk (średnia, wariancja, rozkład normalny). Przy danych jakościowych często badamy niezależność dwóch zmiennych. Hipotezy są następujące:
 - $H_0$: zmienne są niezależne
 - $H_1$: zmienne nie są niezalezne.

Najczęściej stosowanym testem jest test niezależności chi-kwadrat. Bierzemy obie zmienne $x$ oraz $y$ i tworzymy dla nich *macierz kontyngencji*. Gdyby zmienne były niezależne, to w macierzy kontyngencji byłyby zachowane pewne proporcje. Wprowadźmy następujące oznaczenia:
 - $O_{ij}$ - ilość obserwacji w $i$-tym wierszy i $j$-tej kolumnie
 - $R_i = \sum_{j=1}^c O_{ij}$ - suma po $i$-tym wierszu
 - $C_j = \sum_{i=1}^r O_{ij}$ - suma po $j$-tej kolumnie
 - $N = \sum_{j=1}^c \sum_{i=1}^r O_{ij}$ - suma wszystkich obserwacji
 - $E_{ij} = \frac{R_i \times C_j}{N}$ - oczekiwane ilości obserwacji przy założeniu niezależności zmiennych.

Wówczas statystyka testowa ma postać:
$$
\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \sim \chi^2 ((r-1)\times(c-1))
$$

Gdy w którejś z komórek tabeli kontyngencji jest 5 lub mniej obserwacji, to stosujemy tzw. test Fishera: https://en.wikipedia.org/wiki/Fisher%27s_exact_test

Zadanie 8. Zbadaj zależność między dniem tygodnia a rodzajem posiłku dla zbioru danych *tips*.