## Úkol 2: Test hypotézy

Cílem je ověřit s 95% jistotou následující hypotézu:
- Pokud viník nehody byl pod silným vlivem alkoholu, došlo častěji k těžkým zdravotním
následkům.

In [77]:
import pandas as pd
from scipy.stats import chi2_contingency
from scipy.stats import chi2

In [78]:
def get_dataframe(filename: str) -> pd.DataFrame:
    """
    Funkce nacte dataframe ze souboru a převede jisté typy na kategorické.
    """
    categorizable_cols = ['p36', 'p37', 'p2a', 'weekday(p2a)', 'p2b', 'p6', 'p7', 'p8', 'p9', 'p10',
                          'p12', 'p14', 'p15', 'p16', 'p17', 'p18',
                          'p19', 'p20', 'p21', 'p22', 'p23', 'p24', 'p27', 'p28', 'p34', 'p35', 'p39',
                          'p44', 'p45a', 'p47', 'p48a', 'p49', 'p50a', 'p50b', 'p51', 'p52', 'p53',
                          'p55a', 'p57', 'p58', 'h', 'i', 'j', 'k', 'l', 'n', 'o', 'p', 'q', 'r', 's', 't', 'p5a']
    df = pd.read_pickle(filename, compression='gzip')
    for col in categorizable_cols:
        df[col] = df[col].astype('category')
    return df

In [79]:
df = get_dataframe('accidents.pkl.gz')

Vybereme sloupce, které nás zajimají

In [80]:
df_hyp = df[['p11', 'p13a', 'p13b']]

Vyloučení nehod pod vlivem drog

In [81]:
df_hyp = df_hyp[(df_hyp['p11'] != 4) & (df_hyp['p11'] != 5)] 

Zjistíme, jestli byl viník pod silným vlivem alkoholu

In [82]:
df_hyp.loc[df_hyp['p11'] >= 7, 'silny_vliv_alkoholu'] = 1
df_hyp.loc[df_hyp['p11'] < 7, 'silny_vliv_alkoholu'] = 0

Došlo k těžký zdravotním následkům nebo k usmrcení (p13a+ p13b > 0)?


In [83]:
df_hyp['tezke_nasledky'] = 0
df_hyp.loc[df_hyp['p13a'] + df_hyp['p13b'] > 0, 'tezke_nasledky'] = 1

Vytvoříme kontigenční tabulku

In [84]:
df_crosstab = pd.crosstab(index=df_hyp['silny_vliv_alkoholu'], columns=[df_hyp['tezke_nasledky']])
df_crosstab

tezke_nasledky,0,1
silny_vliv_alkoholu,Unnamed: 1_level_1,Unnamed: 2_level_1
0.0,457528,10777
1.0,16492,886


Pro ověření dané hypotézy se použije chí-kvadrát test, který se používá pro dvě kategorické proměnné.
Zadaná hypotéza je alternativní a říká, že mezi proměnnými je korelace.

**H0: Nulová hypotéza** říká, že mezi silným vlivem alkoholu a těžkými následky není žádný vztah a jsou tedy nezávislé.

**HA: Alternativní hypotéza** říká, že mezi těmito proměnnými je vztah.

Zamítnutím H0 se potvrdí HA. O zamítnutí H0 můžeme rozhodnout dvěma způsoby: 
- Porovnáním napočítané testovací statistiky s kritické hodnotou. V případě, že testovací statistika přesáhne kritickou hodnotu, je možné H0 zamítnout.
- Porovnáním p-hodnoty s hladinou významnosti. V případě, že p-hodnota je nižší nž hladina významnosti, pak můžeme H0 zamítnout.

Následující kód porovnává p-hodnotu s hladinou významnosti.

In [85]:
stat, p, dof, expected = chi2_contingency(df_crosstab)
print(F"Stupeň volnosti: {dof}")
print(F"P-hodnota: {p:.2f}")
print(F"Testovací statistika: {stat:.2f}")
print(F"Očekávaná naměřené hodnoty: \n{expected}\n")

prob = 0.95
alpha = 1.0 - prob
if p <= alpha:
	print(F"{p:.2f} <= {alpha:.2f} -> Zamítáme H0!")
else:
	print(F"{p:.2f} < {alpha:.2f} -> Nezamítáme H0!")

Stupeň volnosti: 1
P-hodnota: 0.00
Testovací statistika: 558.17
Očekávaná naměřené hodnoty: 
[[4.57059308e+05 1.12456916e+04]
 [1.69606916e+04 4.17308438e+02]]

0.00 <= 0.05 -> Zamítáme H0!


Následující kód porovnává testovací statistiku s kritickou hodnotou. 

In [86]:
critical = chi2.ppf(prob, dof) # zjistime, jakou hodnotu ma kriticka hodnota
print(F"Kritická hodnota: {critical:.2f}")
print(F"Testovací statistika: {stat:.2f}\n")

if abs(stat) >= critical:
    print(F"{abs(stat):.2f} >= {critical:.2f} -> Zamítáme H0!")
else:
    print(F"{abs(stat):.2f} < {critical:.2f} -> Nezamítáme H0!")

Kritická hodnota: 3.84
Testovací statistika: 558.17

558.17 >= 3.84 -> Zamítáme H0!


V obou případech vyšlo, že zamítáme nulovou hypotézu, a můžeme tedy prohlásit, že je zde statisticky významná korelace mezi silným vlivem alkoholu a těžkými následky.