# $\chi^2$ test hypotézy: Pokud viník nehody byl pod silným vlivem alkoholu, došlo častěji k těžkým zdravotním následkům.

Knihovny

In [1]:
import pandas as pd
import scipy.stats

Načtení dat ze souboru a úprava

In [2]:
df = pd.read_pickle('accidents.pkl.gz')
df['p11'] = pd.to_numeric(df['p11'], errors='coerce').astype('Int32')
df.dropna(inplace=True) # Odstranění prázdných hodnot
df = df[df['p11'] > -1] # Odstranění prázdných dat
# Odstranění záznamů, kdy byl viník pod vlivem drog
df = df[df['p11'] != 4]
df = df[df['p11'] != 5]
df = pd.DataFrame(
    {
        'alkohol': df['p11'],
        'obeti': df['p13a'] + df['p13b']
    }
)

Výpočet Pearsonovo korelačního koeficientu, abycho zjistili, zda data korelují.

In [3]:
pearsonR, pvalue = scipy.stats.pearsonr(df['alkohol'], df['obeti'])
print('Pearsonův korelační koeficient', pearsonR, 'p-hodnota',pvalue)

Pearsonův korelační koeficient 0.0722738416121263 p-hodnota 0.0


Binarizace proměnných

In [4]:
# Vinník nehody byl pod silným vlivem alkoholu
df['hodne alkoholu'] = df['alkohol'] >= 7
# Při nehodě se vznikli
df['vznikle obeti'] = df['obeti'] > 0

Vytvoření kontingenční tabulky

In [5]:
ct = pd.crosstab(df['hodne alkoholu'], df['vznikle obeti'])
ct

vznikle obeti,False,True
hodne alkoholu,Unnamed: 1_level_1,Unnamed: 2_level_1
False,301101,8949
True,13157,786


Výpočet $\chi^2$ testu

In [6]:
scipy.stats.chi2_contingency(ct)

(345.52220104029,
 4.0018562496326696e-77,
 1,
 array([[300733.94456053,   9316.05543947],
        [ 13524.05543947,    418.94456053]]))

# Závěr
## Data
Data jsou ve vzájemné korelaci, toto jsme určili pomocí pearsonova koeficientu korelace, který vyšel 0.072. Korelaci můžeme považovat za významnou, protože p-hodnota ($0$) $< 0.05$.
## Hypotéza
Hodnota $4.0 * 10^{-77}$ je mnohem menší než $0.05$. Proto můžeme prohlásit, že při nehodách, kdy je viník pod silným vlivem alkoholu, častěji dojde ke zranění.
