# Testy niezależności

In [1]:
import numpy as np
from scipy import stats
from statsmodels.stats.contingency_tables import mcnemar

## Niezależność
Mamy dwie zmienne losowe $(X,Y)$. Mówimy, że są one niezależne, gdy dla dowolnych zdarzeń $A$ i $B$ mamy

$\mathbb{P}(X\in A,Y \in B) = \mathbb{P}(X\in A)\mathbb{P}(Y \in B)$

Jeśli mamy tablicę z ilością obserwacji które mają pewną wartość cechy 1 i pewną wartość cechy 2 (np. wykształcenie rodziców i dzieci patrz zad 1.) to wówczas wcześniejszy wzór probabilistyczny opisujemy danymi empirycznymi:  

$\frac{n_{11}}{n} = \frac{n_{11}+n_{12}}{n}\frac{n_{11}+n_{21}}{n}$

## Test niezależności chi-kwadrat

Hipotezy:
\begin{equation*}
    H_0: \text{ cechy są niezależne}
\end{equation*}
wobec hipotezy alternatywnej
\begin{equation*}
    H_1: \text{ cechy są zależne}.
\end{equation*}

Statystyka testowa jest dana wzorem 
\begin{equation*}
    T = \sum_{j=1}^{rc}\frac{(O_j - E_j)^2}{E_j},
\end{equation*}
gdzie $O_j$ oznacza liczbę obserwacji w $j$-tej komórce tabeli korelacyjnej, natomiast $E_j$ jest tzw. oczekiwaną liczbą obserwacji, która powinna znaleźć się w $j$-tej komórce, jeżeli rozpatrywanej cechy są istotnie niezależne.

Oczekiwaną liczbę obserwacji wylicza się dla każdej komórki ze wzoru
\begin{equation*}
    E_j = \frac{\sum_j^r\sum_j^c}{n},
\end{equation*}
gdzie $\sum_j^r$ oznacza sumę obserwacji w wierszu, w którym położona jest $j$-ta komórka, $\sum_j^c$ jest sumą obserwacji w kolumnie, do której należy $j$-ta komórka, zaś $n$ jest licznością próby.

Przy założeniu prawdziwości hipotezy zerowej oraz dla licznej próby $(n\geq 100)$, statystyka testowa $T$ ma w przybliżeniu rozkład chi-kwadrat o $(r-1)(c-1)$ stopniach swobody.

Duże wartości statystyki testowej przemawiają przeciwko hipotezie zerowej. Stąd obszar krytyczny ma postać
\begin{equation*}
    W_{\alpha} = [\chi^2_{1-\alpha, (r-1)(c-1)}, +\infty).
\end{equation*}


# Zadanie 1 
Na podstawie poniższych danych zbadać, czy istnieje zależnośc między wykształceniem dzieci i wykształceniem rodziców. Przyjąć poziom istotności 0.01.

|                      | Wykształcenie rodziców |       |
|----------------------|------------------------|------|
| Wykształcenie dzieci | wyższe                 | inne |
| wyższe               | 180                    | 120  |
| inne                 | 55                     | 145  |

In [8]:
tab = np.array([[180, 120],
                [55, 145]])

results = stats.chi2_contingency(tab)
results  # odrzucamy hipotezę zerową H0

(49.58684597885722,
 1.897818905361828e-12,
 1,
 array([[141., 159.],
        [ 94., 106.]]))

# Zadanie 2
Na podstawie wyników badania 200 losowo wybranych osób stwierdzić, czy istnieje zależność między płcią a preferowanym miejscem spędzania wakacji. Przyjąć poziom istotności 0.05.

|           | Preferowane miejsce spędzania wakacji |         |       |
|-----------|---------------------------------------|---------|-------|
|           |                  góry                 | jeziora | morze |
| Kobiety   |                   32                  |    32   |   41  |
| Mężczyźni |                   39                  |    33   |   23  |

In [10]:
tab = np.array([[32, 32, 41],
                [39, 33, 23]])

results = stats.chi2_contingency(tab)
results  # nie odrzucamy hipotezy zerowej H0 (chociaż wynik p_value jest na granicy p0 = 0.05)

(5.281228531784497,
 0.07131744822282321,
 2,
 array([[37.275, 34.125, 33.6  ],
        [33.725, 30.875, 30.4  ]]))

In [12]:
tab = np.array([[64, 41],
                [72, 23]])

results = stats.chi2_contingency(tab)
results  # odrzucamy hipotezę zerową H0 (przy połączeniu preferencji 'gór' i 'jezior')

(4.386886333480762,
 0.03621639600703492,
 1,
 array([[71.4, 33.6],
        [64.6, 30.4]]))

# Zadanie 3
W sondażu opinii publicznej zbadano 1000 wyborców. Respondenci zostali sklasyfikowani według płci (mężczyzna lub kobieta) i według preferencji głosowania (republikanin, demokrata lub niezależny). Wyniki pokazano w tabeli awaryjnej poniżej.

|           | Republikanie | Demokraci | Niezależni |
|:---------:|:------------:|:---------:|:----------:|
| Mężczyzna |      200     |    150    |     50     |
|  Kobieta  |      250     |    300    |     50     |

Czy istnieje różnica między kobietami i mężczyznami? Czy preferencje mężczyzn w głosowaniu różnią się znacznie od preferencji kobiet? Użyj poziomu istotności 0.05.

In [11]:
tab = np.array([[200, 150, 50],
                [250, 300, 50]])

results = stats.chi2_contingency(tab)
results  # odrzucamy hipotezę zerową H0

(16.203703703703702,
 0.0003029775487145488,
 2,
 array([[180., 180.,  40.],
        [270., 270.,  60.]]))

## Dokładny test Fishera
 
*   Test niezależności stosowany zamiast testu $\chi^2$, gdy liczebności w komórkach w tabeli są mniejsze niż 5, a całkowita liczba obserwacji jest nie większa niż 20.
*   Stosowany dla danych dostępnych w formie tablicy $2\times 2$.  

|           | $B_1$ | $B_2$ |
|:---------:|:------------:|:---------:|
| $A_1$ |      $n_{11}$    |    $n_{12}$    |
| $A_2$  |      $n_{21}$     |    $n_{22}$    |

W ramach testu Fishera obliczane jest prawdopodobieństwo otrzymania danego rozkładu z tablicy. Rozpatrywane  są  wszelkie możliwe  kombinacje  liczebności  komórek  w  oparciu  o liczebności brzegowe zgodnie ze wzorem:
\begin{equation*}
    p = \frac{{n_{11}+n_{12}\choose n_{11}}{n_{21}+n_{22}\choose n_{21}}}{{n \choose n_{11}+n_{12}}}
\end{equation*}

Dokładny poziom istotności $p$ jest sumą tych prawdopodobieństw, które są mniejsze lub równe badanemu prawdopodobieństwu.

# Zadanie 4
Poniższa tabela podaje zestawienie efektów dwóch form terapii nowotworu krtani (zabiegu chirurgicznego i radioterapii) po upływie dwóch lat od zakończenia terapii.

|                     | Opanowanie nowotworu | Nieopanowanie nowotworu |
|:-------------------:|:--------------------:|:-----------------------:|
| Zabieg chirurgiczny |          20          |            2            |
|     Radioterapia    |          14          |            3            |

Korzystając z tzw. dokładanego testu Fishera stwierdzić, czy wyniki obu zastosowanych form terapii różnią się istotnie.

In [14]:
tab = np.array([[20, 2],
                [14, 3]])

stats.fisher_exact(tab)  # obie terapie są jednakowo skuteczne (nie odrzucamy hipotezy H0)

(2.142857142857143, 0.6362354257091098)

# Zadanie 5
Badając  wpływ  sposobu  karmienia  niemowląt  na stan  ich  uzębienia  uzyskano  wyniki przedstawione  w  poniższej tabeli.

|          |           | Niemowlęta z uzębieniem |          |
|:--------:|:---------:|:-----------------------:|:--------:|
|          |           |        normalnym        | wadliwym |
| Karmione |  piersią  |            4            |    16    |
|          | z butelki |            1            |    21    |

Na poziomie istotności 0.05, stwierdzić, czy sposób karmienia niemowląt a ich stan uzębienia są zmiennymi niezależnymi.

In [15]:
tab = np.array([[4, 16],
                [1, 21]])

stats.fisher_exact(tab)  # nie odrzucamy hipotezy H0 o niezależności zdarzeń

(5.25, 0.17448405253283306)

## Test McNemara
Służy do weryfikacji hipotezy o zgodności pomiędzy wynikami dwukrotnych pomiarów cechy $X$. 

Tabela kontyngencji o wymiarach $2\times 2$:

|           | Kategoria 1 | Kategoria 2 |
|:---------:|:------------:|:---------:|
| Kategoria 1 |      $O_{11}$    |    $O_{12}$    |
| Kategoria 2  |      $O_{21}$     |    $O_{22}$    |

Hipotezy
\begin{equation*}
    H_0: O_{12} = O_{21}\\
    H_1: O_{12} \neq O_{21},
\end{equation*}
gdzie $O_{12}$ i $O_{21}$ są licznościami obserwowanymi występującymi poza główną przekątną macierzy kontyngencji $2\times 2$, czyli licznościami mówiącymi o braku zgodności wyników dwukrotnych pomiarów. 

Statystyka testowa jest dana wzorem
\begin{equation*}
    T = \frac{(O_{12} - O_{21})^2}{O_{12} + O_{21}}.
\end{equation*}
 Statystyka ta ma asymptotycznie (dla dużych liczności) rozkład chi-kwadrat z jednym stopniem swobody. 


# Zadanie 6
Po roku, który minął od powołania nowego rządu, losowo wybrana grupa 1600 osób została poproszona o ocenę gabinetu. Po upływie kolejnego roku ta sama grupa osób została powtórnie poproszona o wyrażenie swej opinii. Wyniki sondażu znajdują się w poniższej tabeli.

|                                 |             |  Ocena po drugim roku rządów |             |
|:-------------------------------:|:-----------:|:----------------------------:|:-----------:|
|                                 |             |           Poparcie           | Dezaprobata |
|  Ocena po pierwszym roku rządów |   Poparcie  |              794             |     150     |
|                                 | Dezaprobata |              86              |     570     |

Czy na podstawie tego badania można stwierdzić, że stopień poparcia dla gabinetu uległ istotnej zmianie?

In [17]:
tab = np.array([[794, 150],
                [86, 570]])

print(mcnemar(tab))  # odrzucamy hipotezę zerową H0 (zatem poziom poparcia istotnie uległ zmianie)

pvalue      3.715936139571387e-05
statistic   86.0


# Zadanie 7
Przeprowadzono ankietę, w której pytano się ankietowanych „Czy wirusem HIV można się zakazić przez podanie ręki?”. Odpowiedź „Tak” udzieliło 67 osób z pośród 100 ankietowanych. Po zastosowanej ankiecie przeprowadzono wśród uczestników, wykład na temat choroby AIDS i metodach przenoszenia wirusa HIV. Po wykładzie ponowiono pytanie. W wyniku badania: odpowiedzi „Tak” udzieliło 20 osób, w tym 0 osób co wcześniej udzieliło odpowiedzi „Nie”. Odpowiedzi „Nie” udzieliło 80 osób, w tym 47 osób co wcześniej udzieliło odpowiedzi „Tak”. Pytanie jakie stawia badacz brzmi: Czy przeprowadzony wykład wpłynął na rodzaj udzielanych odpowiedzi?.

|                  |     | Po  wykładzie |     |
|:----------------:|:---:|:-------------:|:---:|
|                  |     |      Tak      | Nie |
|  Przed wykładem  | Tak |       20      |  47 |
|                  | Nie |       0       |  33 |

In [18]:
tab = np.array([[20, 47],
                [0, 33]])

print(mcnemar(tab))  # odrzucamy hipotezę zerową H0 (zatem wykład wpłynął na udzielane odpowiedzi)

pvalue      1.4210854715202004e-14
statistic   0.0
