# Odhad závislosti mezi proměnnými pomocí $\chi^2$ testu
### V tomto příkladu zkusíme ověřit s 95% jistotou následující hypotézu:<br>
<p><em>Pokud viník nehody byl pod silným vlivem alkoholu, došlo častěji k těžkým zdravotním následkům.</em></p>

## Požadované prerekvizity z přednášek
### Teorie
 * Kontingenční tabulka
 * Chi-kvadrát test
 
### Python
 * Manipulace s daty dat (pandas)
 * Analýza statistik (scipy)

Na začátku stáhneme dataset

In [9]:
import pandas as pd

df = pd.read_pickle("accidents.pkl.gz")
df.head()

Unnamed: 0,p1,p36,p37,p2a,weekday(p2a),p2b,p6,p7,p8,p9,...,l,n,o,p,q,r,s,t,p5a,region
0,2100160001,4,,2016-01-01,5,55,1,1,0,2,...,,711403.0,,Souhlasnýsesměremúseku,Pomalý,554782.0,451622.0,GN_V0.1UIR-ADR_410,1,PHA
1,2100160002,4,,2016-01-01,5,130,1,3,0,2,...,,,,,,,,,1,PHA
2,2100160003,5,,2016-01-01,5,100,1,2,0,2,...,,,,,,,,,1,PHA
3,2100160004,6,,2016-01-01,5,120,9,0,0,2,...,,,,,,,,,1,PHA
4,2100160005,6,,2016-01-01,5,2560,2,0,0,2,...,,,,,,,,,1,PHA


Potom vyloučíme data, které nejsou potřebné pro řešení dané úlohy

In [10]:
df = df[['p11', 'p13a', 'p13b']]
df = df.loc[(df.p11 != 4) & (df.p11 != 5)]

df

Unnamed: 0,p11,p13a,p13b
0,2,0,0
1,2,0,0
2,2,0,0
3,9,0,0
4,0,0,0
...,...,...,...
487156,0,0,0
487157,2,0,0
487158,0,0,0
487159,2,0,0


Pomocí tohoto datasetu vytvoříme kontingenční tabulku, která bude obsahovat binarizovaná data o vlivu alkoholu vůči následkům havárii 

In [11]:
df['p11'] = (df['p11'] >= 7)
df['p13'] = (df.p13a + df.p13b > 0)
df = pd.crosstab(df.p11, df.p13)

df

p13,False,True
p11,Unnamed: 1_level_1,Unnamed: 2_level_1
False,457528,10777
True,16492,886


Pracujeme s tabulku 2x2 pro kterou vypočítáme $\chi^2$ test. Funkce pro počítání $\chi^2$ je implementovaná v scipy.stats.chi2 a hodnotu p-value tímpádem lze pro daný dataset vypočítat jako:

In [12]:
from scipy.stats import chi2_contingency
stat, p, dof, expected = chi2_contingency(df)
p

2.0971505700338304e-123


Hodnota $2.09*10^{-123}$ je mnohem menší než $0.05$. Proto zamítneme nulovou hypotézu a můžeme prohlásit, že je zde statisticky významná korelace mezi silným vlivem alkoholu a těžkými zdravotními následkami.

# Závěr 

Pomocí tohoto testu jde vidět, že je zde statisticky významná korelace mezi silným vlivem alkoholu a těžkými zdravotními následkami.

**Pozor:** [Korelace neimplikuje kauzalitu](https://cs.wikipedia.org/wiki/Korelace_neimplikuje_kauzalitu). Pokud nějaké dvě proměnné spolu korelují, nelze z toho ještě vyvozovat, že jedna je příčinou a druhá kauzálním následkem.