## Úkol 2: Test hypotézy

Import potřebných knihoven

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, ttest_ind

### Hypotéza 1
_Na silnicích první třídy se při nehodách umíralo se stejnou pravděpodobností jako na
silnicích třetí třídy._

Načtení dat


In [2]:
in_data = pd.read_pickle('accidents.pkl.gz')
in_data

Unnamed: 0,p1,p36,p37,p2a,weekday(p2a),p2b,p6,p7,p8,p9,...,n,o,p,q,r,s,t,p5a,region,date
0,2100160001,4,,2016-01-01,5,55,1,1,0,2,...,711403.0,,Souhlasnýsesměremúseku,Pomalý,554782.0,451622.0,GN_V0.1UIR-ADR_410,1,PHA,2016-01-01
1,2100160002,4,,2016-01-01,5,130,1,3,0,2,...,,,,,,,,1,PHA,2016-01-01
2,2100160003,5,,2016-01-01,5,100,1,2,0,2,...,,,,,,,,1,PHA,2016-01-01
3,2100160004,6,,2016-01-01,5,120,9,0,0,2,...,,,,,,,,1,PHA,2016-01-01
4,2100160005,6,,2016-01-01,5,2560,2,0,0,2,...,,,,,,,,1,PHA,2016-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2639,190910224060,3,21030.0,2022-12-28,3,835,5,0,0,2,...,,,,,511587.0,,,2,KVK,2022-12-28
2640,190910224148,8,,2022-12-27,2,1900,3,0,6,2,...,,,,,538434.0,554553.0,,1,KVK,2022-12-27
2641,190910224288,6,,2022-12-30,5,1000,3,0,3,2,...,,,,,560464.0,550817.0,,1,KVK,2022-12-30
2642,190910224334,2,210.0,2022-12-30,5,1525,3,0,2,2,...,,,,,560286.0,,,1,KVK,2022-12-30


Zjištění smrtelných nehod a ponechání pouze silnic první a třetí třídy

In [3]:
in_data['fatal'] = in_data['p13a'] > 0
data = in_data[(in_data['p36'] == 1) | (in_data['p36'] == 3)]

Vytvoření kontingenční tabulky

In [4]:
con_table = pd.crosstab(data['fatal'], data['p36'])
con_table

p36,1,3
fatal,Unnamed: 1_level_1,Unnamed: 2_level_1
False,96618,91882
True,1104,536


Provedení 𝜒^2 testu

In [5]:
chi2, p, dof, expected = chi2_contingency(con_table)
print(f"chi2:     {chi2}")
print(f"p-value:  {p}")
print(f"expected: {expected}")

chi2:     167.2443757129343
p-value:  2.95835646229767e-38
expected: [[96879.12590723 91620.87409277]
 [  842.87409277   797.12590723]]


Vidíme, že p-hodnota je $2.96 * 10^{-38}$, což je určitě menší, než $0.05$ (ověřujeme s jistotou 95%).

Můžeme tedy zamítnout nulovou hypotézu, z čehož vyplývá, že existuje statisticky významný rozdíl mezi počtem smrtelných nehod na silnicích první a třetí třídy.

Potrvrdili jsme tedy, že je větší pravděpodobnost smrtelné nehody na silnici 1. třídy, než na silnici 3. třídy.

### Hypotéza 2
_Při nehodách vozidel značky Škoda je škoda na vozidle nižší než při nehodách vozidel Audi._

Filtrace dat dle značek ve sloupci p45a: Škoda (39) a Audi (2)
a poškození vozidel (sloupec p53)

In [6]:
skoda_data = in_data[in_data['p45a'] == 39]['p53']
audi_data = in_data[in_data['p45a'] == 2]['p53']

skoda_data
audi_data

0       4000
64       400
121      500
122        0
123      200
        ... 
2443    1000
2519     700
2529      20
2549     100
2568     500
Name: p53, Length: 14183, dtype: int64

Provedení T-testu


In [7]:
t_stat, p_val = ttest_ind(skoda_data, audi_data, equal_var=False)

print(f"t-stat:  {t_stat}")
print(f"p-value: {p_val}")

t-stat:  -21.156326466652995
p-value: 1.5143729251718737e-98


Vidíme, že p-hodnota je $1.5 * 10^{-98}$, což je určitě menší, než $0.05$ (ověřujeme opět s jistotou 95%).

Můžeme tedy zamítnout nulovou hypotézu, z čehož vyplývá, že existuje statisticky významný rozdíl mezi škodou na vozidlech značka Škoda a značky Audi.

Vidíme, že t-statistika je záporná, což značí, že průměrná škoda na vozidlech značky Škoda je nižší, než průměrná škoda na vozidlech značky Audi.