In [224]:
import numpy as np
from scipy import stats

# Úkol 1
Pro výpočty v úkolu 1 je využit $\Chi^2$ - test dobré shody.<br>
Je třeba získat skutečné četnosti z odpovědí respondentů (f<sub>real<sub>j</sub></sub>) a teoretické četnosti (f<sub>teor<sub>j</sub></sub>) pomocí bodového odhadu p:<br>
p = x / n, kde x je celkový počet respondentů, kterým vyhovuje zimní čas, a n je celkový počet respondentů.<br>
Jednotlivé teoretické četnosti pak lze získat vynásobením počtu respondentů v dané skupině bodovým odhadem p:<br>
f<sub>teor<sub>j</sub></sub> = p * n<sub>j</sub><br>
Testovací kritérium lze pak vypočítat následujícím způsobem:<br>
$t = \sum_{j=1}^{m} \frac{(f_{real_j} - f_{teor_j})^2}{f_{teor_j}} \overset{as}{\sim} \Chi^2(m-q-1)$, kde m je počet tříd a q je počet odhadovaných parametrů. <br>
Doplněk kritického oboru lze vyjádřit následovně:<br>
$\bar{W}_\alpha = \Biggl \langle 0, \Chi^2_{1-\alpha} \biggr \rangle$, kde $\Chi^2_{1-\alpha}$ je kvantil Pearsonova rozdělení s m-q-1 stupni volnosti.

In [225]:
# 2 velka mesta, 2 mala mesta, 3 obce, 1 okoli studenta
resp = np.array([1327, 915, 681, 587, 284, 176, 215, 34])
zimni = np.array([510, 324, 302, 257, 147, 66, 87, 15])
letni = np.array([352, 284, 185, 178, 87, 58, 65, 8])
stridat = np.array([257, 178, 124, 78, 44, 33, 31, 4])
beznazoru = np.array([208, 129, 70, 74, 6, 19, 32, 7])
alpha = 0.05

resp_sk = np.array([np.sum(resp[:2]), np.sum(resp[2:4]), np.sum(resp[4:7])])
zimni_sk = np.array([np.sum(zimni[:2]), np.sum(zimni[2:4]), np.sum(zimni[4:7])])
letni_sk = np.array([np.sum(letni[:2]), np.sum(letni[2:4]), np.sum(letni[4:7])])
stridat_sk = np.array([np.sum(stridat[:2]), np.sum(stridat[2:4]), np.sum(stridat[4:7])])
beznazoru_sk = np.array([np.sum(beznazoru[:2]), np.sum(beznazoru[2:4]), np.sum(beznazoru[4:7])])


In [226]:
def chisq(respondenti, testovane, odhad, st_volnosti):
    testovane_teor = respondenti * p
    print("Skutečné četnosti:", testovane)
    print("Teoretické četnosti: ", testovane_teor)
    t = np.sum(np.square(testovane - testovane_teor)/testovane_teor)
    print("Testovací kritérium: ", t)
    krit_obor = stats.chi2.ppf(0.95, df=st_volnosti)
    print("Doplněk kritického oboru: < 0,", krit_obor, ">")

<b>a) H<sub>0</sub>: V městech, obcích a v okolí studenta je stejné procentuální zastoupení obyvatel, co preferují zimní čas.</b><br>
H<sub>A</sub>: V městech, obcích a v okolí studenta není stejné procentuální zastoupení obyvatel, co preferují zimní čas.

Při ověřování následujících třech hypotéz ( a), b) a c) ) se pracovalo s 8 skupinami. Hodnota stupně volnosti bude 6, neboť je prováděn bodový odhad (tedy 8-1-1).

In [227]:
p = np.sum(zimni)/np.sum(resp)
chisq(resp, zimni, p, 6)

Skutečné četnosti: [510 324 302 257 147  66  87  15]
Teoretické četnosti:  [537.21640199 370.42427115 275.6928182  237.63830292 114.9732164
  71.25100735  87.03958284  13.76439915]
Testovací kritérium:  20.704110374775837
Doplněk kritického oboru: < 0, 12.591587243743977 >


$20,704 \notin \langle 0; 12,592 \rangle$, tedy H<sub>0</sub> zamítáme.

<b>b) H<sub>0</sub>: V městech, obcích a v okolí studenta je stejné procentuální zastoupení obyvatel, co preferují letní čas.</b><br>
H<sub>A</sub>: V městech, obcích a v okolí studenta není stejné procentuální zastoupení obyvatel, co preferují letní čas.

In [228]:
p = np.sum(letni)/np.sum(resp)
chisq(resp, letni, p, 6)

Skutečné četnosti: [352 284 185 178  87  58  65   8]
Teoretické četnosti:  [382.78241289 263.938137   196.4392036  169.32424745  81.92178241
  50.76842854  62.01825077   9.80753733]
Testovací kritérium:  6.932364791415857
Doplněk kritického oboru: < 0, 12.591587243743977 >


$6,932 \in \langle 0; 12,592 \rangle$, tedy H<sub>0</sub> nezamítáme.

<b>c) H<sub>0</sub>: V městech, obcích a v okolí studenta je stejné procentuální zastoupení obyvatel, co preferují střídání času.</b><br>
H<sub>A</sub>: V městech, obcích a v okolí studenta není stejné procentuální zastoupení obyvatel, co preferují střídání času.

In [229]:
p = np.sum(stridat)/np.sum(resp)
chisq(resp, stridat, p, 6)

Skutečné četnosti: [257 178 124  78  44  33  31   4]
Teoretické četnosti:  [235.58260251 162.44015169 120.89808011 104.21023939  50.4185826
  31.2453188   38.16899739   6.03602749]
Testovací kritérium:  13.058303417150736
Doplněk kritického oboru: < 0, 12.591587243743977 >


$13,058 \notin \langle 0; 12,592 \rangle$, tedy H<sub>0</sub> zamítáme.

<b>d) H<sub>0</sub>: U větších měst, menších měst a obcí je stejné procentuální zastoupení obyvatel, co preferují zimní čas.</b><br>
H<sub>A</sub>: U větších měst, menších měst a obcí není stejné procentuální zastoupení obyvatel, co preferují zimní čas.

Při ověřování následujících dvou hypotéz ( d), e) ) se pracuje se 3 skupinami, sloučenými podle větších měst, menších měst a obcí. Hodnota stupně volnosti bude tedy 1, neboť je prováděn bodový odhad (tedy 3-1-1).

In [230]:
p = np.sum(zimni_sk)/np.sum(resp_sk)
chisq(resp_sk, zimni_sk, p, 1)

Skutečné četnosti: [834 559 300]
Teoretické četnosti:  [906.97873357 512.9567503  273.06451613]
Testovací kritérium:  12.661948651569508
Doplněk kritického oboru: < 0, 3.841458820694124 >


$12,66 \notin \langle 0; 3,84 \rangle$, tedy H<sub>0</sub> zamítáme.

<b>e) H<sub>0</sub>: U větších měst, menších měst a obcí je stejné procentuální zastoupení nerozhodnutelných obyvatel.</b><br>
H<sub>A</sub>: U větších měst, menších měst a obcí není stejné procentuální zastoupení nerozhodnutelných obyvatel.

In [231]:
p = np.sum(beznazoru_sk)/np.sum(resp_sk)
chisq(resp_sk, beznazoru_sk, p, 1)

Skutečné četnosti: [337 144  57]
Teoretické četnosti:  [288.21887694 163.00692951  86.77419355]
Testovací kritérium:  20.688664757394136
Doplněk kritického oboru: < 0, 3.841458820694124 >


$20,69 \notin \langle 0; 3,84 \rangle$, tedy H<sub>0</sub> zamítáme.

f) Na základě odpovědí z okolí studenta zkuste určit z dat, zda student prováděl výzkum ve větším městě, menším městě nebo v obci. Porovnejte výsledek se skutečností a okomentujte.

In [232]:
np.set_printoptions(suppress=True) 
def chisq_f(sk_index):
    p_zimni = np.sum(zimni_sk[sk_index])/np.sum(resp_sk[sk_index])
    p_letni = np.sum(letni_sk[sk_index])/np.sum(resp_sk[sk_index])
    p_stridani = np.sum(stridat_sk[sk_index])/np.sum(resp_sk[sk_index])
    p_beznazoru = np.sum(beznazoru_sk[sk_index])/np.sum(resp_sk[sk_index])
    vyzkum = [zimni[7], letni[7], stridat[7], beznazoru[7]]
    celkem = np.sum(vyzkum)
    vyzkum_teor = [celkem*p_zimni, celkem*p_letni, celkem*p_stridani, celkem*p_beznazoru]
    print(stats.chisquare(f_obs = vyzkum, f_exp = vyzkum_teor, ddof=2))

krit_obor = stats.chi2.ppf(0.95, df=2)
print("Doplněk kritického oboru: < 0,", krit_obor, ">")
print("H0: Student prováděl výzkum ve větším městě.")
chisq_f(0)
print("H0: Student prováděl výzkum v menším městě.")
chisq_f(1)
print("H0: Student prováděl výzkum v obci.")
chisq_f(2)


Doplněk kritického oboru: < 0, 5.991464547107979 >
H0: Student prováděl výzkum ve větším městě.
Power_divergenceResult(statistic=2.438784599437811, pvalue=0.11836790712014167)
H0: Student prováděl výzkum v menším městě.
Power_divergenceResult(statistic=3.230669566985398, pvalue=0.07227113427356965)
H0: Student prováděl výzkum v obci.
Power_divergenceResult(statistic=6.947865988500661, pvalue=0.008391928065668765)


Na základě p-values lze zjistit, že hypotézy o provedení výzkumu ve větším nebo menším městě zamítnuty nebyly, naopak hypotéza o provedení výzkumu v obci byla zamítnuta. Tyto výsledky jsou srovnatelné s realitou, neboť výzkum byl prováděn v menším městě i větším městě, s převahou obyvatel z většího města. Dá se tedy vyvodit, že pozorované a dodané odpovědi souhlasí.