# Test niezależności chi-kwadrat
Załóżmy, że przeprowadzono międzynarodowe badania z zakresu genetyki, w których naukowcy badali obecność u ludzi genu odpowiedzialnego za rozumienie rachunku różniczkowego.

W przypadku danych z poniższej tabeli sprawdzić czy to, że ktoś posiada gen odpowiedzialny za zrozumienie rachunku różniczkowego zależy od kraju pochodzenia:

<table>
  <tr>
    <th></th>
    <td>Nie posiadają genu</td> 
    <td>Posiadają gen</td>
  </tr>
  <tr>
    <td>Kraj 1</td>
    <td>6400</td>
    <td>1150</td>
  </tr>
  <tr>
    <td>Kraj 2</td>
    <td>5450</td>
    <td>1300</td>
  </tr>
  <tr>
    <td>Kraj 3</td>
    <td>18200</td>
    <td>3510</td>
  </tr>
  <tr>
    <td>Kraj 4</td>
    <td>8140</td>
    <td>1668</td>
  </tr>
</table>
    
H0 - Obecność danego genu nie zależy od kraju pochodzenia

H1 - Obecność genu zależy od kraju pochodzenia

In [2]:
import numpy as np
import pandas as pd
from scipy import stats
data = np.array([[6400,1150],[5450,1300],[18200,3510],[8140,1668]])


In [3]:
data1 = np.concatenate((data,data.sum(axis=1)[:,None]),axis=1)
data1 = np.concatenate((data1,data1.sum(axis=0)[:,None].T),axis=0)

data_tab = pd.DataFrame(data1)
data_tab.columns = ["Brak genu","Mają gen","row_totals"]
data_tab.index = ["Kraj 1","Kraj 2","Kraj 3","Kraj 4","col_totals"]

observed = pd.DataFrame(data)
observed.columns = ["Brak genu","Mają gen"]
observed.index = ["Kraj 1","Kraj 2","Kraj 3","Kraj 4"]
data_tab

Unnamed: 0,Brak genu,Mają gen,row_totals
Kraj 1,6400,1150,7550
Kraj 2,5450,1300,6750
Kraj 3,18200,3510,21710
Kraj 4,8140,1668,9808
col_totals,38190,7628,45818


In [4]:
observed

Unnamed: 0,Brak genu,Mają gen
Kraj 1,6400,1150
Kraj 2,5450,1300
Kraj 3,18200,3510
Kraj 4,8140,1668


# Wylicz wartości oczekiwane

In [5]:
expected =  np.outer(data_tab["row_totals"][0:4],           # suma liczebności i-tego wiersza * suma liczebności j-tej kolumny
                     data_tab.loc["col_totals"][0:2]) / data_tab["row_totals"][4] # przez liczebność całości

expected = pd.DataFrame(expected)

expected.columns = ["Brak genu","Mają gen"]
expected.index = ["Kraj 1","Kraj 2","Kraj 3","Kraj 4"]

expected

Unnamed: 0,Brak genu,Mają gen
Kraj 1,6293.039853,1256.960147
Kraj 2,5626.227683,1123.772317
Kraj 3,18095.61526,3614.38474
Kraj 4,8175.117203,1632.882797


# Oblicz statystykę testową
$$
V = \sum_{i} \sum_{j} \frac{(n_{ij} - e_{ij})^2}{e_{ij}}  \thicksim \chi_{(k-1)(s-1)}^2
$$

In [6]:
V = (((observed-expected)**2)/expected).sum().sum()
print(V)

48.598121834120214


# Oblicz p-wartość

In [8]:
p_value = 1 - stats.chi2.cdf(x=V, df=3)
print("P value")
print(p_value)

P value
1.5884638049357136e-10


# Sprawdź poprawność wykonanych obliczeń

In [9]:
V, p, dof, expected = stats.chi2_contingency(data)
print(V)
print(p)
print(dof)
print(expected)

48.59812183412021
1.5884640327867686e-10
3
[[ 6293.03985333  1256.96014667]
 [ 5626.22768344  1123.77231656]
 [18095.61526038  3614.38473962]
 [ 8175.11720285  1632.88279715]]


4