# Projekt MSP

Dominik Nejedlý (xnejed09)

Tento jupyter notebook obsahuje převážně pouze výpočty. Podrobný popis prováděných operací a postupů je dostupný v přiložené PDF dokumentaci.

In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.stats import chi2_contingency

### Úkol 1

Český stát objednal průzkum, jak lidé vnímají střídání zimního a letního času. Průzkum zahrnoval větší města (Praha, Brno), menší města (Znojmo, Tišnov) a obce (Paseky, Horní Lomná, Dolní Věstonice). V průzkumu zjišťovali, co lidem lépe vyhovuje – zda střídání letního a zimního času, pouze zimní čas nebo pouze letní čas. Odpovědi respondentů vidíte v tabulce:

In [2]:
observed_t8 = np.array([[510, 324, 302, 257, 147, 66, 87, 21],
                     [352, 284, 185, 178, 87, 58, 65, 25],
                     [257, 178, 124, 78, 44, 33, 31, 8],
                     [208, 129, 70, 74, 6, 19, 32, 17]])

print(observed_t8)

print(observed_t8.sum(axis=0))
print(observed_t8.sum(axis=1))
print(observed_t8.sum())

[[510 324 302 257 147  66  87  21]
 [352 284 185 178  87  58  65  25]
 [257 178 124  78  44  33  31   8]
 [208 129  70  74   6  19  32  17]]
[1327  915  681  587  284  176  215   71]
[1714 1234  753  555]
4256


Na hladině významnosti $\alpha = 0,05$ ($\alpha = 0,05$ je celková chyba 1. druhu pro a) až e)) prověřte hypotézy:

a) V městech, obcích a v okolí studenta (8 průzkumů) je stejné procentuální zastoupení obyvatel, co preferují zimní čas. 

In [3]:
winter_t8 = np.array([observed_t8[0, :], observed_t8[1:, :].sum(axis=0)])

print(winter_t8)

print(winter_t8.sum(axis=0))
print(winter_t8.sum(axis=1))
print(winter_t8.sum())

[[510 324 302 257 147  66  87  21]
 [817 591 379 330 137 110 128  50]]
[1327  915  681  587  284  176  215   71]
[1714 2542]
4256


In [4]:
chi2_w8, p_val_w8, dof_w8, expected_w8 = chi2_contingency(winter_t8)

print(f"expected frequencies: {expected_w8}")
print(f"t (test statsitic): {chi2_w8}")
print(f"k (degrees of freedom): {dof_w8}")
print(f"p (p-value): {p_val_w8}")

expected frequencies: [[534.41682331 368.49389098 274.25610902 236.39990602 114.37406015
   70.87969925  86.58599624  28.59351504]
 [792.58317669 546.50610902 406.74389098 350.60009398 169.62593985
  105.12030075 128.41400376  42.40648496]]
t (test statsitic): 38.091318712987785
k (degrees of freedom): 7
p (p-value): 2.9114164591671834e-06


b) V městech, obcích a v okolí studenta (8 průzkumů) je stejné procentuální zastoupení obyvatel, co preferují letní čas.

In [5]:
summer_t8 = np.array([observed_t8[1, :], observed_t8[[0, 2, 3], :].sum(axis=0)])

print(summer_t8)

print(summer_t8.sum(axis=0))
print(summer_t8.sum(axis=1))
print(summer_t8.sum())

[[352 284 185 178  87  58  65  25]
 [975 631 496 409 197 118 150  46]]
[1327  915  681  587  284  176  215   71]
[1234 3022]
4256


In [6]:
chi2_s8, p_val_s8, dof_s8, expected_s8 = chi2_contingency(summer_t8)

print(f"expected frequencies: {expected_s8}")
print(f"t (test statsitic): {chi2_s8}")
print(f"k (degrees of freedom): {dof_s8}")
print(f"p (p-value): {p_val_s8}")

expected frequencies: [[384.75516917 265.29840226 197.45159774 170.1968985   82.34398496
   51.03007519  62.33787594  20.58599624]
 [942.24483083 649.70159774 483.54840226 416.8031015  201.65601504
  124.96992481 152.66212406  50.41400376]]
t (test statsitic): 10.598035641253666
k (degrees of freedom): 7
p (p-value): 0.157138898028678


c) V městech, obcích a v okolí studenta (8 průzkumů) je stejné procentuální zastoupení obyvatel, co preferují střídání časů.

In [7]:
alternation_t8 = np.array([observed_t8[2, :], observed_t8[[0, 1, 3], :].sum(axis=0)])

print(alternation_t8)

print(alternation_t8.sum(axis=0))
print(alternation_t8.sum(axis=1))
print(alternation_t8.sum())

[[ 257  178  124   78   44   33   31    8]
 [1070  737  557  509  240  143  184   63]]
[1327  915  681  587  284  176  215   71]
[ 753 3503]
4256


In [8]:
chi2_a8, p_val_a8, dof_a8, expected_a8 = chi2_contingency(alternation_t8)

print(f"expected frequencies: {expected_a8}")
print(f"t (test statsitic): {chi2_a8}")
print(f"k (degrees of freedom): {dof_a8}")
print(f"p (p-value): {p_val_a8}")

expected frequencies: [[ 234.78171992  161.88792293  120.48707707  103.85596805   50.24718045
    31.13909774   38.03923872   12.56179511]
 [1092.21828008  753.11207707  560.51292293  483.14403195  233.75281955
   144.86090226  176.96076128   58.43820489]]
t (test statsitic): 17.122219809484445
k (degrees of freedom): 7
p (p-value): 0.01662485808564772


d) U větších měst, menších měst a obcí (3 průzkumy) je stejné procentuální zastoupení obyvatel, co preferují zimní čas.

In [9]:
observed_t3 = np.column_stack([observed_t8[:, 0:2].sum(axis=1), observed_t8[:, 2:4].sum(axis=1), observed_t8[:, 4:7].sum(axis=1)])

print(observed_t3)

print(observed_t3.sum(axis=0))
print(observed_t3.sum(axis=1))
print(observed_t3.sum())

[[834 559 300]
 [636 363 210]
 [435 202 108]
 [337 144  57]]
[2242 1268  675]
[1693 1209  745  538]
4185


In [10]:
winter_t3 = np.array([observed_t3[0, :], observed_t3[1:, :].sum(axis=0)])

print(winter_t3)

print(winter_t3.sum(axis=0))
print(winter_t3.sum(axis=1))
print(winter_t3.sum())

[[ 834  559  300]
 [1408  709  375]]
[2242 1268  675]
[1693 2492]
4185


In [11]:
chi2_w3, p_val_w3, dof_w3, expected_w3 = chi2_contingency(winter_t3)

print(f"expected frequencies: {expected_w3}")
print(f"t (test statsitic): {chi2_w3}")
print(f"k (degrees of freedom): {dof_w3}")
print(f"p (p-value): {p_val_w3}")

expected frequencies: [[ 906.97873357  512.9567503   273.06451613]
 [1335.02126643  755.0432497   401.93548387]]
t (test statsitic): 21.26414731413258
k (degrees of freedom): 2
p (p-value): 2.412954204737471e-05


e) U větších měst, menších měst a obcí (3 průzkumy) je stejné procentuální zastoupení nerozhodnutých obyvatel.

In [12]:
no_opinion_t3 = np.array([observed_t3[3, :], observed_t3[0:3, :].sum(axis=0)])

print(no_opinion_t3)

print(no_opinion_t3.sum(axis=0))
print(no_opinion_t3.sum(axis=1))
print(no_opinion_t3.sum())

[[ 337  144   57]
 [1905 1124  618]]
[2242 1268  675]
[ 538 3647]
4185


In [13]:
chi2_n3, p_val_n3, dof_n3, expected_n3 = chi2_contingency(no_opinion_t3)

print(f"expected frequencies: {expected_n3}")
print(f"t (test statsitic): {chi2_n3}")
print(f"k (degrees of freedom): {dof_n3}")
print(f"p (p-value): {p_val_n3}")

expected frequencies: [[ 288.21887694  163.00692951   86.77419355]
 [1953.78112306 1104.99307049  588.22580645]]
t (test statsitic): 23.740625722427865
k (degrees of freedom): 2
p (p-value): 6.99501461000237e-06


f) Na základě odpovědí z okolí studenta zkuste určit z dat, zda student prováděl výzkum ve větším městě, menším městě nebo v obci.

- větší města

In [14]:
neighborhood_larger_cities = np.column_stack([observed_t8[:, 7], observed_t3[:, 0]])

print(neighborhood_larger_cities)

print(neighborhood_larger_cities.sum(axis=0))
print(neighborhood_larger_cities.sum(axis=1))
print(neighborhood_larger_cities.sum())

[[ 21 834]
 [ 25 636]
 [  8 435]
 [ 17 337]]
[  71 2242]
[855 661 443 354]
2313


In [15]:
chi2_nb_lc, p_val_nb_lc, dof_nb_lc, expected_nb_lc = chi2_contingency(neighborhood_larger_cities)

print(f"expected frequencies: {expected_nb_lc}")
print(f"t (test statsitic): {chi2_nb_lc}")
print(f"k (degrees of freedom): {dof_nb_lc}")
print(f"p (p-value): {p_val_nb_lc}")

expected frequencies: [[ 26.24513619 828.75486381]
 [ 20.29009944 640.70990056]
 [ 13.59835711 429.40164289]
 [ 10.86640726 343.13359274]]
t (test statsitic): 8.158938986634517
k (degrees of freedom): 3
p (p-value): 0.042838621056253266


- menší města

In [16]:
neighborhood_smaller_cities = np.column_stack([observed_t8[:, 7], observed_t3[:, 1]])

print(neighborhood_smaller_cities)

print(neighborhood_smaller_cities.sum(axis=0))
print(neighborhood_smaller_cities.sum(axis=1))
print(neighborhood_smaller_cities.sum())

[[ 21 559]
 [ 25 363]
 [  8 202]
 [ 17 144]]
[  71 1268]
[580 388 210 161]
1339


In [17]:
chi2_nb_sc, p_val_nb_sc, dof_nb_sc, expected_nb_sc = chi2_contingency(neighborhood_smaller_cities)

print(f"expected frequencies: {expected_nb_sc}")
print(f"t (test statsitic): {chi2_nb_sc}")
print(f"k (degrees of freedom): {dof_nb_sc}")
print(f"p (p-value): {p_val_nb_sc}")

expected frequencies: [[ 30.75429425 549.24570575]
 [ 20.57356236 367.42643764]
 [ 11.1351755  198.8648245 ]
 [  8.53696789 152.46303211]]
t (test statsitic): 14.064331221138593
k (degrees of freedom): 3
p (p-value): 0.0028188819150275174


- obce

In [18]:
neighborhood_villages = np.column_stack([observed_t8[:, 7], observed_t3[:, 2]])

print(neighborhood_villages)

print(neighborhood_villages.sum(axis=0))
print(neighborhood_villages.sum(axis=1))
print(neighborhood_villages.sum())

[[ 21 300]
 [ 25 210]
 [  8 108]
 [ 17  57]]
[ 71 675]
[321 235 116  74]
746


In [19]:
chi2_nb_v, p_val_nb_v, dof_nb_v, expected_nb_v = chi2_contingency(neighborhood_villages)

print(f"expected frequencies: {expected_nb_v}")
print(f"t (test statsitic): {chi2_nb_v}")
print(f"k (degrees of freedom): {dof_nb_v}")
print(f"p (p-value): {p_val_nb_v}")

expected frequencies: [[ 30.55093834 290.44906166]
 [ 22.36595174 212.63404826]
 [ 11.04021448 104.95978552]
 [  7.04289544  66.95710456]]
t (test statsitic): 20.125884488393417
k (degrees of freedom): 3
p (p-value): 0.0001598448011913254


### Úkol 2

Data sestávají ze 70 realizací 3 náhodných veličin. První dva sloupce v tabulce (Excel -- Úkol 2 -- Data) obsahují vysvětlující proměnné X a Y (regresory -- pro všechny zadání stejné), třetí sloupec -- viz. číslo zadání -- udává hodnoty závislé (vysvětlované) proměnné Z. Testy provádějte na hladině významnosti 0,05%, intervalové odhady vypočítejte se spolehlivosti 95%. Pro zpřehlednění textu označte jednotlivé kroky.

In [20]:
# Load data
df = pd.read_excel('MSP_Projekt_2022-23_Zadani_Pá_10.xlsx', sheet_name='Úkol 2 - Data', header=3, names=['xi', 'yi', 'zi'], usecols='A,B,AA')

xi = df['xi']
yi = df['yi']
zi = df['zi']

df

Unnamed: 0,xi,yi,zi
0,0.0,0.000000,51.08
1,0.0,1.666667,30.71
2,0.0,3.333333,11.17
3,0.0,5.000000,-120.24
4,0.0,6.666667,-225.12
...,...,...,...
65,20.0,3.333333,-1633.97
66,20.0,5.000000,-1877.01
67,20.0,6.666667,-2137.04
68,20.0,8.333333,-2312.33


a) Určete vhodný model pomocí zpětné metody a regresní diagnostiky. V úvahu vezměte model polynomiální – kvadratický (v obou proměnných). Vycházejte tedy z regresní funkce:
$$Z = \beta_1 + \beta_2X + \beta_3 Y + \beta_4 X^2 + \beta_5 Y^2 + \beta_6 X \cdot Y$$
až po $Z = \beta_1$.
Vhodnost nalezených modelů porovnejte pomocí koeficientu determinace $R^2$. Možnost zjednodušení jednoho modelu na jeho submodel (model získaný vynecháním některého sloupce matice plánu) ověřte pomocí vhodného testu nulovosti regresních parametrů.

In [21]:
f = np.column_stack((xi, yi, xi**2, yi**2, xi * yi))
f = sm.add_constant(f)

model = sm.OLS(zi, f).fit()

print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                     zi   R-squared:                       0.995
Model:                            OLS   Adj. R-squared:                  0.994
Method:                 Least Squares   F-statistic:                     2414.
Date:                Mon, 12 Dec 2022   Prob (F-statistic):           1.84e-71
Time:                        09:48:43   Log-Likelihood:                -370.17
No. Observations:                  70   AIC:                             752.3
Df Residuals:                      64   BIC:                             765.8
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         68.9179     23.979      2.874      0.0

Odstranění koeficientu $\beta_2$:

In [22]:
model_wo_xi = sm.OLS(zi, f[:, [0, 2, 3, 4, 5]]).fit()

print(model_wo_xi.summary())

                            OLS Regression Results                            
Dep. Variable:                     zi   R-squared:                       0.995
Model:                            OLS   Adj. R-squared:                  0.994
Method:                 Least Squares   F-statistic:                     2998.
Date:                Mon, 12 Dec 2022   Prob (F-statistic):           6.34e-73
Time:                        09:48:43   Log-Likelihood:                -370.93
No. Observations:                  70   AIC:                             751.9
Df Residuals:                      65   BIC:                             763.1
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         49.3070     17.489      2.819      0.0

Odstranění koeficientů $\beta_2$ a $\beta_3$:

In [23]:
model_wo_xi_yi = sm.OLS(zi, f[:, [0, 3, 4, 5]]).fit()

print(model_wo_xi_yi.summary())

                            OLS Regression Results                            
Dep. Variable:                     zi   R-squared:                       0.994
Model:                            OLS   Adj. R-squared:                  0.994
Method:                 Least Squares   F-statistic:                     3842.
Date:                Mon, 12 Dec 2022   Prob (F-statistic):           5.54e-74
Time:                        09:48:43   Log-Likelihood:                -372.84
No. Observations:                  70   AIC:                             753.7
Df Residuals:                      66   BIC:                             762.7
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         24.0281     11.663      2.060      0.0

Tento model (bez koeficientu $\beta_1$) dosahuje nejlepší R-squared ($0.995$) hodnoty s nejmémě koeficienty (odstranění koeficientu $\beta_3$ způsobí snížení R-squared na $0.994$). Ačkoli pak odstranění konstanty ($\beta_1$) způsobí nárůst R-squared na hodnotu $0.998$, nelze tento model použít, jelikož tímto je vynucen průchod modelu počátkem soustavy souřadnic (bod [0, 0, 0]), což pak vede k celkovému zkreslení modelu a snížení úspěšnosti jeho odhadů. Výjimkou je pouze případ, kdy je konstanta již dle odhadu parametrů téměř rovna nule (případně pokud to s velkou jistotou prokáže test).

        /\
       /  \
      / || \
        ||    - dostupné z tabulky uvedené výše
        ||
        ||
b) Pro takto získaný model (dostatečný submodel) uveďte v jedné tabulce odhady regresních parametrů metodou nejmenších čtverců a jejich 95% intervaly spolehlivosti.

c) Nestranně odhadněte rozptyl závisle proměnné.

In [24]:
# Compute by formula
z2_sum = (zi**2).sum()
b1g1 = (24.0281 * zi).sum()
b4g4 = -3.1227 * (xi**2 * zi).sum()
b5g5 = -4.6939 * (yi**2 * zi).sum()
b6g6 = -4.8477 * (xi * yi * zi).sum()

print(f'Point estimate of the variance of the dependent variable Z (by formula): {(z2_sum - b1g1 - b4g4 - b5g5 - b6g6)/(70 - 4)}')

# Compute
print(f'Point estimate of the variance of the dependent variable Z (by function): {model_wo_xi_yi.mse_resid}')

Point estimate of the variance of the dependent variable Z (by formula): 2617.5018232946823
Point estimate of the variance of the dependent variable Z (by function): 2627.1948809412957


d) Vhodným testem zjistěte, že vámi zvolené dva regresní parametry jsou současně nulové.

In [25]:
H0 = '(const = 0), (x1 = 0)'
f_test = model_wo_xi_yi.f_test(H0)
print(f_test)

<F test: F=1358.411783211178, p=2.3818953642317915e-54, df_denom=66, df_num=2>


e) Vhodným testem zjistěte, že vámi zvolené dva regresní parametry jsou stejné.

In [26]:
H0 = 'x2 = x3'
t_test = model_wo_xi_yi.t_test(H0)
print(t_test)

                             Test for Constraints                             
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
c0             0.1538      0.508      0.303      0.763      -0.860       1.167
