In [118]:
# import packages
import pandas as pd
import scipy.stats
from scipy.stats import chi2_contingency
from scipy.stats import mannwhitneyu

# read input data
df = pd.read_pickle("accidents.pkl.gz")
# TODO drop invalid values in both tests

### Hypotéza 1
*Na silnicích první třídy se při nehodách umíralo se stejnou pravděpodobností jako dálnicích.*

K ověření hypotézy využijte $\chi^2$ test s tím, že také určíte, jestli nehody na silnicích 1. třídy vedly častěji či méně často k fatální nehodě. V tom vám může pomoct “expected” výstup $\chi^2$ testu. Nerozlišujte počet následků, ale pouze nehody, kde došlo k jednomu a více úmrtí (p13a > 0).

In [115]:
# In this task, we compare accidents from first class roads and highways, so ignore the rest
df_h1 = df[ (df["p36"] == 1) | (df["p36"] == 0)].copy()

df_h1["fatal"] = False
df_h1.loc[df_h1["p13a"] > 0, "fatal"] = True

df_h1["highway"] = False
df_h1.loc[df_h1["p36"] == 0, "highway"] = True

ctab = pd.crosstab(
    index=df_h1["fatal"],
    columns=df_h1["highway"],
)
stat, p_value, dof, expected = chi2_contingency(ctab)

if p_value < 0.05:
    print('Na hladině významnosti 0.05 zamítáme hypotézu:')
else:
    print('Na hladině významnosti 0.05 přijimáme hypotézu:')
print('\t"Na silnicích první třídy se při nehodách umíralo se stejnou pravděpodobností jako dálnicích."')

print("\nKontingenční tabulka (ctab):")
print(ctab)
print("\nPředpokládané chi2_contingency hodnoty (expected):")
print(expected)
print("\nctab - expected:")
print(ctab - expected)

Na hladině významnosti 0.05 zamítáme hypotézu:
	"Na silnicích první třídy se při nehodách umíralo se stejnou pravděpodobností jako dálnicích."

Kontingenční tabulka (ctab):
highway  False   True
fatal                
False    78618  24293
True       911    166

Předpokládané chi2_contingency hodnoty (expected):
[[78705.32098896 24205.67901104]
 [  823.67901104   253.32098896]]

ctab - expected:
highway      False       True
fatal                        
False   -87.320989  87.320989
True     87.320989 -87.320989


Kromě toho, že hypotéza byla zamítnuta, je z výstupu předchozí buňky (konkrétně z výsledku $ctab - expected$) zřejmé:
Počet smrtelných nehod na silnicích 1. třídy je o 87 vyšší, než se předpokládalo. Zatímco počet smrtelných nehod na dálnicích je o 87 nižší, než se předpokládalo.
Z toho můžeme odvodit, že nehody na silnicích 1. třídy vedly častěji k fatální nehodě, než nehody na dálnicích.

### Hypotéza 2
*Při nehodách vozidel značky Škoda je škoda na vozidle nižší než při nehodách vozidel Audi.*

Využijte vhodný test a určete, zda je škoda na vozidlech vyšší či nižší a zda je tato vlastnost
na požadované hladině významnosti.

In [117]:
audi = df.loc[df["p45a"] == 2, "p53"]
skoda = df.loc[df["p45a"] == 39, "p53"]

stat, p_value = mannwhitneyu(audi, skoda)
if p_value < 0.05:
    print('Na hladině významnosti 0.05 zamítáme hypotézu:')
else:
    print('Na hladině významnosti 0.05 přijimáme hypotézu:')
print('\tPři nehodách vozidel značky Škoda je škoda na vozidle nižší než při nehodách vozidel Audi.')

Na hladině významnosti 0.05 zamítáme hypotézu:
	Při nehodách vozidel značky Škoda je škoda na vozidle nižší než při nehodách vozidel Audi.
