# Testy zgodności


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns

#Test zgodności chi-kwadrat
Hipoteza zerowa i alternatywna
\begin{equation*}
H_0: F = F_0,\\
H_1: F \neq F_0,
\end{equation*}
gdzie $F_0$ jest w pełni ustaloną dystrybuantą.

Statystyka testowa:
\begin{equation*}
    T = \sum_{i=1}^k\frac{(n_i - np_i)^2}{np_i}
\end{equation*}

gdzie $p_i$ obliczamy ze wzoru
\begin{equation*}
    p_i = F_0(\xi_i) - F_0(\xi_{i-1}),
\end{equation*}
gdzie $\xi_0, \ldots, \xi_k$ oznaczają krańce przedziałów klasowych.

Obszar krytyczny testu na przyjętym poziomie istotności $\alpha$ będzie miał postać
\begin{equation*}
    W_{\alpha} = [\chi^2_{1-\alpha,k-1}, +\infty],
\end{equation*}
gdzie $\chi^2_{1-\alpha,k-1}$ oznacza kwantyl rzędu $1-\alpha$ rozkładu chi-kwadrat o $k-1$ stopniach swobody.

# Zadanie 1
W losowo wziętym tygodniu wydarzyło się w Warszawie 414 wypadków i kolizji drogowych, przy czym ich rozkład w poszczególnych dniach tygodnia wyglądał następująco:

| Dzień tygodnia  | Poniedziałek | Wtorek | Środa | Czwartek | Piątek | Sobota | Niedziela |
|-----------------|:------------:|:------:|:-----:|:--------:|:------:|:------:|:---------:|
| Liczba wypadków |      78      |   56   |   52  |    58    |   83   |   42   |     45    |


Stwierdzić, czy rozkład wypadków w poszczególne dni tygodnia jest równomiernny. Przyjąć poziom istotności 0.05.

# Zadanie 2
W celu zbadania, czy program generujący liczby losowe z rozkładu dwumianowego działa prawidłowo, wygenerowano 100 liczb i otrzymano następujące wyniki:

| Wygenerowana liczba losowa | 0  | 1  | 2  | 3  |
|----------------------------|----|----|----|----|
| Liczba uzyskanych wyników  | 12 | 37 | 38 | 13 |

Zweryfikować odpowiednią hipotezę na poziomie istotności 0.05 zakładając że:

a) wiemy że program powinien generować liczby z rozkładu dwumianowego z parametrami $n=3$ i $p=0.5$,

b) wiemy że program powinien generować liczby z rozkładu dwumianowego z parametrem $n=3$ i pewnym nieznanym prametrem $p$. 

#Zadanie 3

W pewnej fabryce badano wagi 100 tabliczek czekolady. Uzyskano następujące rezutaty:

| Waga | Ilość |
|:---------:|:----------:|
|     130g-140g    |     2     |
|     140g-150g    |     21     |
|     150g-160g    |     64     |
|     160g-170g    |     12     |
|     170g-180g    |     1     |

Sprawdź czy rozkład wagi tabliczek czekolady jest rozkładem normalnym $N(155,6)$.

#Test Kołmogorowa-Smirnowa 
Hipoteza zerowa i alternatywna
\begin{equation*}
    H_0: F_1 = F_2,\\
    H_1: F_1 \neq F_2,
\end{equation*}
gdzie $F_1$ jest dystrybuantą pierwszej próby, a $F_2$  drugiej próby.

Założenie: Rozkłady badanych cech powinny być ciągłe.

Niech $X_1, \ldots, X_{n}$ będzie próbą losową pochodzącą z pierwszej populacji, natomiast $Y_1, \ldots, Y_{m}$ próbą losową pochodzącą z drugiej populacji.

Statystyka testowa:
\begin{equation*}
    D_{n, m} = \sup_x |\hat{F}_n(x) - \hat{F}_m(x)|,
\end{equation*}
gdzie $\hat{F}_n(x)$ i $\hat{F}_m(x)$ oznaczają, odpowiednio, dystrybuanty empiryczne wyznaczone na podstawie pierwszej i drugiej próbki.

Zbyt duże wartości tej statystyki świadczą przeciw hipotezie zerowej, stąd obszar krytyczny testu ma postać
\begin{equation*}
    W_{\alpha} = [d(\alpha, n, m), 1],
\end{equation*}
gdzie $d(\alpha, n, m)$ jest wartością krytyczną rozkładu statystyki~$D_{n, m}$.


#Zadanie 4
W jednej ze szkół uczniowie przystąpili do egzaminu z języka obcego z którego można otrzymać max 50 punktów. Dwunastu z nich wybrało język angielski, a dziewięciu język niemiecki. Uzyskane przez nich rezultaty przedstawia poniższa tabela:

| J. angielski | J. niemiecki |
|:---------:|:----------:|
|     12    |     28     |
|     41    |     14     |
|     38    |     32     |
|     27    |     49     |
|     35    |     43     |
|     19    |     21     |
|     23    |     33     |
|     47    |     40     |
|     25    |     15     |
|     15    |            |
|     31    |            |
|     28    |            |

# Zadanie 5
Korzystając z testu Kołmogorowa-Smirnowa zbadać, czy rozkłady zużycia paliwa (zmienna `mpg`) przez samochody produkowane w Europie i w Japonii różnią się istotnie. Przeprowadzić badania na podstawie danych dotyczących parametrów kilku wybranych marek samochodów zamieszczonych w pliku `samochody.csv`.

#Test Kruskala-Wallisa
Uogólnienie testu Kołmogorowa-Smirnowa. Hipoteza zerowa i alternatywna:
\begin{equation*}
    H_0: F_1 = F_2 = \ldots = F_k,\\
    H_1: \neg H_0 
\end{equation*}
Sprawdzamy hipotezę czy rozkłady wszystkich prób są takie same. Hipotezą alternatywną jest to, czy rozkład badanej cechy nie we wszystkich populacjach jest taki sam.

Założenia: Rozważane rozkłady powinny być ciągłe.




Załóżmy, że mamy $k$ próbek o licznościach $n_1, \ldots, n_k$, przy czym $\sum_{i=1}^k n_i = n$;

 Obserwacje pochodzące ze wszystkich $k$ prób ustawiamy w porządku rosnącym;

Numerujemy kolejnymi liczbami naturalnymi (nadajemy tzw. rangi). Jeżeli kilka kolejnych wyników ma tę samą wartość, to każdemu z nich przypisujemy rangę będącą średnią arytmetyczną przypisanych im liczb naturalnych;

 Dla każdej próbki oddzielnie wyznaczamy sumę rang $R_i$, po czym obliczamy wartość  statystyki testowej.



Postać statystyki testowej testu Kruskala-Wallisa jest postaci
\begin{equation*}
    \begin{split}
        T &= \frac{12}{n(n+1)}\sum_{i=1}^k n_i(\frac{R_i}{n_i} - \frac{(n_+1)}{2})^2 \\
        &= \frac{12}{n(n+1)} \sum_{i=1}^k \frac{R_i^2}{n_i} - 3(n+1).
    \end{split}
\end{equation*}

Przy założeniu prawdziwości hipotezy zerowej statystyka ma asymptotyczny rozkład chi-kwadrat o $k-1$ stopniach swobody.

Obszar krytyczny ma postać
\begin{equation*}
    W_{\alpha} = [\chi^2_{1-\alpha, k-1}, +\infty),
\end{equation*}
gdzie $\chi^2_{1-\alpha, k-1}$ oznacza kwantyl rzędu $1-\alpha$ rozkładu chi-kwadrat o $k-1$ stopniach swobody (tj. \textit{duże wartości statystyki świadczą przeciwko hipotezie zerowej}).

# Zadanie 6
Piętnastu pacjentów będących w podobnej kondycji psychofizycznej i cierpiących na tę samą chorobę psychiczną zostało w sposób losowy podzielonych na trzy grupy, po czym każda z grup została podana innej formie terapii. Po upływie 6 miesięcy wszystkich 15 pacjentów poddano badaniu (w skali od 0 do 100), którego wyniki zawiera poniższa tabela:

| Terapia I | Terapia II | Terapia III |
|:---------:|:----------:|:-----------:|
|     73    |     96     |      12     |
|     79    |     92     |      26     |
|     86    |     89     |      33     |
|     91    |     95     |      8      |
|     35    |     76     |      78     |

Posługując się odpowiednim testem stwierdzić, czy zastosowane formy terapii są równie skuteczne. Przyjąć poziom istotności 0.05.

# Zadanie 7
Na podstawie danych dotyczących parametrów kilku wybranych marek samochodów (plik `samochody.csv`) stwierdzić, czy istnieją istotne różnice w mocy silników samochodowych produkowanych w USA, Japonii i Europie.

$
H_0: F_{\text{USA}} = F_{\text{Japonia}} = F_{\text{Europa}}
$

$
H_1: \neg H_0
$