# MSP - 2. projekt 

Lucie Svobodová (xsvobo1x@stud.fit.vutbr.cz)  
Statistika a pravděpodobnost (MSP)  
FIT VUT, 2023/2024  


In [1]:
# Import použitých knihoven
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
import pandas as pd
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import gamma, poisson

import statsmodels.formula.api as smf
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.graphics.gofplots import qqplot
from matplotlib import cm

## Bayesovské odhady - úloha 1

### a) Konjugované apriorní a aposteriorní rozdělení, prediktivní rozdělení

Předpokládáme, že počet připojení na internetovou síť za 1 ms je popsaný náhodnou veličinou s Poissonovým rozdělením s parametrem 𝜆, t.j. 𝑋~𝑃𝑜(𝜆).

O parametru 𝜆 máme následující expertní odhad: každých 5 ms by mělo nastat 10 připojení. 

Pozorovali jsme připojení po dobu 100 ms. Pozorovaní o počtu připojení za každou 1 ms jsou uvedené v souboru measurements.csv ve sloupci „úloha_1 a)“.

Vašim zadáním je z této expertní informace urči konjugované apriorní rozdělení k parametru Poissonova rozdělení a na základě pozorovaní určit aposteriorní rozdělení. Dále určete apriorní a aposteriorní prediktivní rozdělení pozorovaní. 

In [None]:
# Načtení dat
data = pd.read_csv("measurements.csv")
observed_data = data["uloha_1 a)"].values
observed_data = observed_data[~np.isnan(observed_data)]

# Expertní odhad parametru λ
lambda_expert = 10 / 5  # 10 připojení za 5 ms


1) Do jednoho obrázku vykreslete apriorní a aposteriorní hustotou parametru Poissonova rozdělení 𝜆.

Konjugované apriorní rozdělení: Gamma  
Apriorní parametry: α, β  
α total occurrences in β intervals  
α = 10  
β = 5 

Z tabulky konjugovaných rozdělení určíme apriorní i aposteriorní rozdělení.

Posteriorní parametry:
α+Σxi, β+n

In [None]:
# # Apriorní informace
# alpha_prior = 10
# beta_prior = 5

# # Apriorní rozdělení (gamma rozdělení)
# prior_distribution = np.random.gamma(alpha_prior, beta_prior, 100)

# # Apriorní hustota
# plt.figure(figsize=(10, 6))
# plt.hist(prior_distribution, bins=50, density=True, alpha=0.5, color='blue', label='Apriorní')

# # Aposteriorní rozdělení (gamma rozdělení)
# alpha_posterior = alpha_prior + sum(observations)
# beta_posterior = beta_prior + len(observations)

# posterior_distribution = np.random.gamma(alpha_posterior, beta_posterior, 100)

# print(prior_distribution)
# print(posterior_distribution)
# print(observations)
# print("sum", sum(observations))
# print("len", len(observations))

# Aposteriorní hustota
# plt.hist(posterior_distribution, bins=50, density=True, alpha=0.5, color='red', label='Aposteriorní')

# plt.title('Apriorní a Aposteriorní Hustota Parametru Poissonova Rozdělení')
# plt.xlabel('λ')
# plt.ylabel('Hustota pravděpodobnosti')
# plt.show()


In [None]:
# Použití expertního odhadu pro konjugované apriorní rozdělení
a_prior = 10
b_prior = 5

a_posterior = a_prior + sum(observed_data)
b_posterior = b_prior + len(observed_data)
lambda_posterior_mean = a_posterior / b_posterior

# print(len(observed_data))
# print(observed_data)
# print(a_prior)
# print(sum(observed_data))
# print(a_posterior)

# 1. Vykreslení apriorního a aposteriorního rozdělení parametru λ:
x = np.linspace(0, 10, 1000)
prior = gamma.pdf(x, a_prior, scale=1/b_prior)
posterior = gamma.pdf(x, a_posterior, scale=1/b_posterior)

plt.plot(x, prior, label="Apriorní")
plt.plot(x, posterior, label="Aposteriorní")
plt.legend()
plt.title("Apriorní a aposteriorní rozdělení parametru λ")
plt.show()

2) Do jednoho obrázku vykreslíte apriorní a aposteriorní prediktivní hustotou pozorovaní 𝑥 za jeden časový interval.

In [None]:
# 2. Vykreslení apriorního a aposteriorního prediktivního rozdělení pozorovaní x:
x_pred = np.arange(0, max(observed_data) + 1)
prior_pred = poisson.pmf(x_pred, lambda_posterior_mean)
posterior_pred = poisson.pmf(x_pred, lambda_posterior_mean)

plt.bar(x_pred, prior_pred, label="Apriorní prediktivní")
plt.bar(x_pred, posterior_pred, label="Aposteriorní prediktivní", alpha=0.5)
plt.legend()
plt.title("Apriorní a aposteriorní prediktivní rozdělení pozorovaní x")
plt.show()

3) Sestrojte 95% interval spolehlivosti pro parametr 𝜆 z apriorního a aposteriorního rozdělení a porovnejte je.

In [None]:
# 3. Sestrojení 95% intervalu spolehlivosti:
prior_interval = gamma.interval(0.95, a_prior, scale=1/b_prior)
posterior_interval = gamma.interval(0.95, a_posterior, scale=1/b_posterior)

print("95% Apriorní interval:", prior_interval)
print("95% Aposteriorní interval:", posterior_interval)

4) Vyberte si dva aposteriorní bodové odhady parametru 𝜆, porovnejte je a okomentujte jejich výběr.

In [None]:
# 4. Výběr a porovnání dvou aposteriorních bodových odhadů parametru λ:
posterior_mode = (a_posterior - 1) / b_posterior
posterior_mean = a_posterior / b_posterior




5) Vyberte si jeden apriorní a jeden aposteriorní bodový odhad počtu pozorovaní a
porovnejte je. 

In [None]:
# 5. Výběr a porovnání jednoho apriorního a jednoho aposteriorního bodového odhadu počtu pozorovaní:
prior_mode = (a_prior - 1) / b_prior
prior_mean = a_prior / b_prior

print("Apriorní mode:", prior_mode)
print("Apriorní mean:", prior_mean)

print("Aposteriorní mode:", posterior_mode)
print("Aposteriorní mean:", posterior_mean)

### b) Aproximace diskrétním rozdělením

Integrál ve jmenovateli Bayesově větě je ve většině praktických aplikací důvodem, proč nejsme schopní odvodit aposteriorní hustotu analyticky. Jeden ze způsobů, jak překonat tento problém a odhadnout parametr (ne vektor parametrů) je, že zvolíme diskrétní aproximaci a neřešitelný integrál přejde na sumu.

Poznámka:
Nyní řešíme odhad aposteriorní hustoty a parametrů v případě, že apriorní informace (hustota) je ve formě naměřených hodnot (sloupec „uloha_1 b)_prior“) a rozdělení procesu, který sledujete, je také ve tvaru naměřených hodnot (sloupec „uloha_1 b)_pozorovania“). Tedy místo zadání dvou hustot máme naměřené hodnoty a s pomocí tříděného statistického souboru odhadneme hustoty. Pak se plocha pod hustotou spočítá součtem četností (obdoba numerického počítání integrálu obdélníkovou metodou).

Víme, že délka zpracování procesu v milisekundách ms má odseknuté normální rozdělení (truncated normal distribution) s parametry
𝜇 = 3, 𝜎
2 = 1, 𝑎 = 1

Naší úlohou je odhadnout parametr 𝑏, t.j. maximální dobu trvání procesu. Máme historické záznamy o jeho délce trvání (sloupec „uloha 1 a)_prior“) na počítačích podobné výkonové řady. Provedli jsme sérii pozorovaní po 10, číslo série pozorovaní v tabulce v sloupci „skupina“. Z těchto záznamů vyjádříte apriorní informaci o parametru 𝑏.

Ve sloupci „uloha_1 b)_pozorovania“ jsou naše pozorování délky trvání procesu Vyjádřete funkci věrohodnosti (sloupec „uloha_1 b)_pozorovania“) (v tomto případe také jen její diskrétní aproximace) a následně diskrétní aposteriorní hustotu.

1) Do jednoho grafu vykreslíte apriorní, aposteriorní hustotou a funkci věrohodnosti.
Funkci věrohodnosti normujte tak, aby jej součet byl 1 kvůli porovnatelnosti
v obrázku.

- Tu sme mali viacero problémov. Prvý bol s tvorbou apriórneho rozdelenia pre parameter
"b". Postup, ktorí väčšina z nás zvolila bol nasledujúci:
V každej skupine (z 10 000 skupín, kde každá mala 10 nameraných hodnôt) sme našli
najväčšiu hodnotu. Týchto 10 000 hodnôt sme dali do jednej dátovej sady a vytvorili sme z
nich diskrétne rozdelenie. Toto diskrétne rozdelenie bolo urobené rozdelením všetkých 10
000 hodnôt na intervaly. (Napríklad celý interval hodnôt rozdelíme na 50 intervalov o
rovnakej šírke). Takto bolo získané (žlté) diskrétne apriórne rozdelenie uložené v obrázku
"output.png" v prílohe tohto mailu. Každému intervalu vieme dať "predstaviteľa", t.j.
napríklad stred daného intervalu. Týmto získame diskrétne rozdelenie, ktoré má 50 možných
vstupov, t.j. 50 rôznych parametrov "b" (stredy intervalov) s rôznymi pravdepodobnosťami.

2) Z aposteriorní hustoty určete 95% interval spolehlivosti (konfidenční interval) pro
parametr 𝑏.

2) Tvorba aposteriórneho rozdelenia je opísaná v obrázku "rovnica.png". Táto celá rovnica
predstavuje výpočet aposteriórnej pravdepodobnosti pre 1 konkrétny parameter "b". Celkové
aposteriórne rozdelenie je zobrazené na obrázku "output.png" červenou farbou. Výpočet
funguje klasicky na základe bayesovského odhadu pre diskrétne rozdelenia a naše
aposteriórne rozdelenie pre parameter "b" je:
P(b_1 | x) = P(x | b_1) * h(b_1) / Σ( P(x | b_i) * h(b_i) )
P(b_2 | x) = P(x | b_2) * h(b_2) / Σ( P(x | b_i) * h(b_i) )
P(b_3 | x) = P(x | b_3) * h(b_3) / Σ( P(x | b_i) * h(b_i) )
...
P(b_50 | x) = P(x | b_50) * h(b_50) / Σ( P(x | b_i) * h(b_i) )
Avšak, keďže my máme vektor dát D o dĺžke 100, musíme tieto rovnice upraviť:

P(b_1 | D) = P(d_1 | b_1) * ... * P(d_100 | b_1) * h(b_1) / Σ( P(d_1 | b_i) * ... * P(d_100 |
b_i) * h(b_i) )
prepíšeme na kratší zápis:
P(b_1 | D) = Π P(d_i | b_1) * h(b_1) / Σ_i( Π_j (d_j | b_i) * h(b_i) )
P(b_2 | D) = Π P(d_i | b_2) * h(b_1) / Σ_i( Π_j (d_j | b_i) * h(b_i) )
P(b_3 | D) = Π P(d_i | b_3) * h(b_1) / Σ_i( Π_j (d_j | b_i) * h(b_i) )
...
P(b_50 | D) = Π P(d_i | b_50) * h(b_1) / Σ_i( Π_j (d_j | b_i) * h(b_i) )
Otázka je:
Je správne povedať, že tieto funkcie dokopy tvoria jedno finálne aposteriórne rozdelenie (v
output.png červená)?
P(b_1 | D), P(b_2 | D), P(b_3 | D), ..., P(b_50 | D)
Je správne povedať, že tieto funkcie dokopy tvoria jednu finálnu vierohodnostnú funkciu (v
output.png modrá)?
Π P(d_i | b_1), Π P(d_i | b_2), Π P(d_i | b_3), ..., Π P(d_i | b_50)

3) Vyberte dva bodové odhady parametru 𝑏 a spočítejte je.

## Regrese - úloha 2

Disclaimer: data (včetně „příběhu“) jsou vygenerovaná a nemusí mít dobrý obraz v realitě. Berte proto prosím výsledky z regrese s „rezervou“. Díky.

Podařilo se Vám pomocí stroje času vrátit do doby „zlatého věku“ sociálních sítí a rozhodli jste se konkurovat Facebooku a Twitteru. V souboru Data_v1.0.csv máte k dispozici záznamy od více než 500 uživatelů o rychlosti odezvy (sloupec ping [ms]) během používání Vaší aplikace. Ke každému zápisu máte navíc k dispozici o počtu uživatelů (sloupec ActiveUsers) v daném okamžiku, o procentu uživatelů, kteří momentálně interagují s prezentovaným obsahem (sloupec InteractingPct), o procentu uživatelů, kteří jen tupě scrollují po Vaší obdobě timeline/twitterfeedu (sloupec ScrollingPct) a o operačním systému zařízení ze kterého se uživatel připojil (OSType).

1) Pomocí zpětné eliminace určete vhodný regresní model. Za výchozí „plný“ model
považujte plný kvadratický model (všechny interakce druhého řádu a všechny druhé
mocniny, které dávají smysl).
- Zapište rovnici Vašeho finálního modelu.
- Diskutujte splnění předpokladů lineární regrese a základní regresní
diagnostiky.
- Pokud (až během regresního modelování) identifikujete některé „extrémně
odlehlé hodnoty“ můžete ty „nejodlehlejší“ hodnoty, po alespoň krátkém
zdůvodnění, vyřadit.

Modelovaná data:

In [68]:
# load data to df dataframe
df = pd.read_csv('Data_v1.0.csv')

# print dataframe
print(df)

      OSType  ActiveUsers  InteractingPct  ScrollingPct  Ping [ms]
0        iOS         4113          0.8283        0.1717         47
1        iOS         7549          0.3461        0.6539         46
2    Windows         8855          0.2178        0.7822         55
3    Android         8870          0.0794        0.9206         56
4      MacOS         9559          0.7282        0.2718         76
..       ...          ...             ...           ...        ...
497      iOS         5315          0.1974        0.8026         28
498    MacOS         1392          0.2373        0.7627         24
499      iOS         6014          0.8112        0.1888         54
500  Android         5118          0.2345        0.7655         39
501    MacOS         2660          0.9390        0.0610         55

[502 rows x 5 columns]


V datech se vyskytuje kategorická proměnná, OSType. Pomocí one-hot encoding z ní vytvoříme numerické proměnné. 

In [69]:
# perform one-hot encoding for the column OSType
df = pd.get_dummies(df, columns=['OSType'], prefix='OSType', drop_first=True)

# convert bool to int
for column in df.columns:
    if df[column].dtype == bool:
        df[column] = df[column].astype(float)

# print the converted dataframe
print(df)

     ActiveUsers  InteractingPct  ScrollingPct  Ping [ms]  OSType_MacOS  \
0           4113          0.8283        0.1717         47           0.0   
1           7549          0.3461        0.6539         46           0.0   
2           8855          0.2178        0.7822         55           0.0   
3           8870          0.0794        0.9206         56           0.0   
4           9559          0.7282        0.2718         76           1.0   
..           ...             ...           ...        ...           ...   
497         5315          0.1974        0.8026         28           0.0   
498         1392          0.2373        0.7627         24           1.0   
499         6014          0.8112        0.1888         54           0.0   
500         5118          0.2345        0.7655         39           0.0   
501         2660          0.9390        0.0610         55           1.0   

     OSType_Windows  OSType_iOS  
0               0.0         1.0  
1               0.0         1.0

Nyní zajistíme, že se mezi modelovanými daty nevyskytuje lineární závislost. To zjistíme pomocí matice korelace.

In [75]:
# calculate the correlation matrix
corr_matrix = df.corr()
print(corr_matrix)

                ActiveUsers  InteractingPct  Ping [ms]  OSType_MacOS  \
ActiveUsers        1.000000        0.040275   0.693499     -0.000136   
InteractingPct     0.040275        1.000000   0.406957      0.086466   
Ping [ms]          0.693499        0.406957   1.000000      0.333107   
OSType_MacOS      -0.000136        0.086466   0.333107      1.000000   
OSType_Windows     0.003135       -0.016964   0.047783     -0.371550   
OSType_iOS        -0.063206       -0.062634  -0.360491     -0.341322   

                OSType_Windows  OSType_iOS  
ActiveUsers           0.003135   -0.063206  
InteractingPct       -0.016964   -0.062634  
Ping [ms]             0.047783   -0.360491  
OSType_MacOS         -0.371550   -0.341322  
OSType_Windows        1.000000   -0.334506  
OSType_iOS           -0.334506    1.000000  


Z korelační matice je vidět, že v datech je lineární závislost mezi proměnnými InteractingPct a ScrollingPct. Odstraníme tedy jednu z těchto proměnných, například proměnnou ScrollingPct. Mezi jinými proměnnými není tak vysoká závislost a proto všechny zbývající proměnné ponecháme.

In [72]:
# drop ScrollingPct column
df.drop(['ScrollingPct'], axis=1, inplace=True)
print(df)

     ActiveUsers  InteractingPct  Ping [ms]  OSType_MacOS  OSType_Windows  \
0           4113          0.8283         47           0.0             0.0   
1           7549          0.3461         46           0.0             0.0   
2           8855          0.2178         55           0.0             1.0   
3           8870          0.0794         56           0.0             0.0   
4           9559          0.7282         76           1.0             0.0   
..           ...             ...        ...           ...             ...   
497         5315          0.1974         28           0.0             0.0   
498         1392          0.2373         24           1.0             0.0   
499         6014          0.8112         54           0.0             0.0   
500         5118          0.2345         39           0.0             0.0   
501         2660          0.9390         55           1.0             0.0   

     OSType_iOS  
0           1.0  
1           1.0  
2           0.0  
3  

TODO nějaké jiné předpoklady před děláním regresního modelu???

Nyní můžeme vytvořit plný kvadratický model. Ten tedy obsahuje všechny interakce druhého řádu, kromě interakcí původních kategorických atributů mezi sebou, a všechny mocniny druhého řádu, kromě druhých mocnin původních kategorických atributů - ty nemají smysl. 

Výchozí kvadratický model:  
$Ping = \alpha*ActiveUsers + \beta*InteractingPct + \gamma*OSType\_MacOS + \delta*OSType\_Windows + \zeta*OSType\_iOS + \eta*ActiveUsers*InteractingPct + \theta*ActiveUsers*OSType\_MacOS + \iota*ActiveUsers*OSType\_Windows + \kappa*ActiveUsers*OSType\_iOS + \lambda*InteractingPct*OSType\_MacOS + \mu*InteractingPct*OSType\_Windows + \nu*InteractingPct*OSType\_iOS + \xi*ActiveUsers^2 + \omicron*InteractingPct^2 + \epsilon$
kde $\alpha, \beta, \gamma, \delta, \zeta, \eta, \theta, \iota, \kappa, \lambda, \mu, \nu, \xi, \omicron$ jsou koeficienty jednotlivých proměnných.

Pro tento model vypočteme jednotlivé charakteristiky:

In [74]:
# full quadratic model
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows + OSType_iOS'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS + InteractingPct:OSType_MacOS + InteractingPct:OSType_Windows + InteractingPct:OSType_iOS'
formula_x2_y2 = 'I(ActiveUsers**2) + I(InteractingPct**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.844
Model:                            OLS   Adj. R-squared:                  0.839
Method:                 Least Squares   F-statistic:                     187.9
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          5.18e-186
Time:                        16:16:01   Log-Likelihood:                -1598.4
No. Observations:                 502   AIC:                             3227.
Df Residuals:                     487   BIC:                             3290.
Df Model:                          14                                         
Covariance Type:            nonrobust                                         
                                    coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------
Intercept     

Z výše uvedeného, výchozího plného kvadratického modelu je vidět, že nejvyšší p-hodnotu má proměnná OSType_iOS. Z modelu ji tedy vypustíme a přepočteme celou regresi znovu.

In [77]:
# drop the OSType_iOS variable
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS + InteractingPct:OSType_MacOS + InteractingPct:OSType_Windows + InteractingPct:OSType_iOS'
formula_x2_y2 = 'I(ActiveUsers**2) + I(InteractingPct**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.844
Model:                            OLS   Adj. R-squared:                  0.840
Method:                 Least Squares   F-statistic:                     202.8
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          3.57e-187
Time:                        16:18:16   Log-Likelihood:                -1598.4
No. Observations:                 502   AIC:                             3225.
Df Residuals:                     488   BIC:                             3284.
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                                    coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------
Intercept     

Z nově přepočteného modelu lze vyčíst, že se zde stále objevují proměnné, které mají p-hodnotu vyšší než 0.05. Proto vypustíme tu proměnnou, která má nejvyšší p-hodnotu - proměnnou InteractingPct*OSType_iOS.

In [79]:
# drop the InteractingPct*OSType_iOS variable
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS + InteractingPct:OSType_MacOS + InteractingPct:OSType_Windows'
formula_x2_y2 = 'I(ActiveUsers**2) + I(InteractingPct**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.844
Model:                            OLS   Adj. R-squared:                  0.840
Method:                 Least Squares   F-statistic:                     220.1
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          2.36e-188
Time:                        16:19:27   Log-Likelihood:                -1598.4
No. Observations:                 502   AIC:                             3223.
Df Residuals:                     489   BIC:                             3278.
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                                    coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------
Intercept     

Z přepočítaného modelu je opět vidět, že se zde stále vyskytují proměnné s p-hodnotami vyššími než 0.05. Nyní tedy odstraníme proměnnou InteractingPct*OSType_iOS.

In [80]:
# drop the InteractingPct*OSType_Windows variable
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS + InteractingPct:OSType_MacOS'
formula_x2_y2 = 'I(ActiveUsers**2) + I(InteractingPct**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.844
Model:                            OLS   Adj. R-squared:                  0.840
Method:                 Least Squares   F-statistic:                     240.6
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          1.50e-189
Time:                        16:20:24   Log-Likelihood:                -1598.4
No. Observations:                 502   AIC:                             3221.
Df Residuals:                     490   BIC:                             3271.
Df Model:                          11                                         
Covariance Type:            nonrobust                                         
                                  coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------------
Intercept         

Dále vypustíme proměnnou InteractingPct*OSType_MacOS a přepočteme jej.

In [83]:
# drop the InteractingPct*OSType_MacOS variable
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS'
formula_x2_y2 = 'I(ActiveUsers**2) + I(InteractingPct**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.844
Model:                            OLS   Adj. R-squared:                  0.841
Method:                 Least Squares   F-statistic:                     265.2
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          9.41e-191
Time:                        16:21:25   Log-Likelihood:                -1598.5
No. Observations:                 502   AIC:                             3219.
Df Residuals:                     491   BIC:                             3265.
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                                 coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------
Intercept           

Dále z regresního modelu vypustíme proměnnou $Interacting^2$ a přepočítáme jej.

In [85]:
# vyhodime InteractingPct**2
formula_x_y = 'ActiveUsers + InteractingPct + OSType_MacOS + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS'
formula_x2_y2 = 'I(ActiveUsers**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.843
Model:                            OLS   Adj. R-squared:                  0.841
Method:                 Least Squares   F-statistic:                     294.4
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          9.61e-192
Time:                        16:22:13   Log-Likelihood:                -1599.1
No. Observations:                 502   AIC:                             3218.
Df Residuals:                     492   BIC:                             3260.
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                                 coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------
Intercept           

Nyní vidíme, že jediná proměnná, která má p-hodnotu vyšší než 0.05 je proměnná OSType_MacOS. Proto ji z regresního podelu také vypustíme.

In [86]:
# drop the OSType_MacOS variable
formula_x_y = 'ActiveUsers + InteractingPct + OSType_Windows'
formula_xy = 'ActiveUsers:InteractingPct + ActiveUsers:OSType_MacOS + ActiveUsers:OSType_Windows + ActiveUsers:OSType_iOS'
formula_x2_y2 = 'I(ActiveUsers**2)'
formula = 'Q("Ping [ms]") ~ ' + formula_x_y + ' + ' + formula_xy + ' + ' + formula_x2_y2

model = smf.ols(formula=formula, data=df)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:         Q("Ping [ms]")   R-squared:                       0.843
Model:                            OLS   Adj. R-squared:                  0.840
Method:                 Least Squares   F-statistic:                     330.9
Date:                Sun, 10 Dec 2023   Prob (F-statistic):          9.30e-193
Time:                        16:23:13   Log-Likelihood:                -1599.7
No. Observations:                 502   AIC:                             3217.
Df Residuals:                     493   BIC:                             3255.
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                                 coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------
Intercept           

Z posledního regresního modelu je vidět, že jediná p-hodnota, která se v něm vyskytuje a je vyšší než hodnota 0.05 je p-hodnota konstanty (Intercept). Tu z modelu zpravidla nevyřazujeme a proto ji i v našem modelu ponecháme. Nalezli jsme tedy výsledný kvadratický model s charakteristikami vypsanými výše.  
Po dosazení bodových odhadů do rovnice získáváme následující rovnici:
$Ping = 0.0099*ActiveUsers + 34.2568*InteractingPct + 7.3575*OSType\_Windows - 0.0031*ActiveUsers*InteractingPct + 0.0017*ActiveUsers*OSType\_MacOS - 0.0017*ActiveUsers*OSType\_Windows - 0.0011*ActiveUsers*OSType\_iOS - 4.146e-07*ActiveUsers^2 + \epsilon$


## UKOLY k 2a
- Zapište rovnici Vašeho finálního modelu.
- Diskutujte splnění předpokladů lineární regrese a základní regresní diagnostiky.
- Pokud (až během regresního modelování) identifikujete některé „extrémně odlehlé hodnoty“ můžete ty „nejodlehlejší“ hodnoty, po alespoň krátkém zdůvodnění, vyřadit.

2) Pomocí Vašeho výsledného modelu identifikujte, pro které nastavení parametrů má
odezva nejproblematičtější hodnotu.

TODO:
Výsledný model bude mít nejproblematičtější hodnotu pro maximální/minimální hodnotu Ping.

In [26]:
# Identify the row with the maximum and minimum values of the dependent variable
max_ping_row = df.loc[df['Ping [ms]'].idxmax()]
min_ping_row = df.loc[df['Ping [ms]'].idxmin()]

# Display the parameter settings for maximum and minimum values
print("Parameter settings for maximum Ping [ms]:")
print(max_ping_row)

print("\nParameter settings for minimum Ping [ms]:")
print(min_ping_row)


Parameter settings for maximum Ping [ms]:
ActiveUsers       5513.0000
InteractingPct       0.4912
Ping [ms]           90.0000
OSType_MacOS         0.0000
OSType_Windows       1.0000
OSType_iOS           0.0000
Name: 255, dtype: float64

Parameter settings for minimum Ping [ms]:
ActiveUsers       1036.0000
InteractingPct       0.2179
Ping [ms]           11.0000
OSType_MacOS         0.0000
OSType_Windows       0.0000
OSType_iOS           1.0000
Name: 85, dtype: float64


3) Odhadněte hodnotu odezvy uživatele s Windows, při průměrném nastavení ostatních
parametrů a vypočtěte konfidenční interval a predikční interval pro toto nastavení.

In [91]:
# average settings
average_settings = {
    'ActiveUsers': df['ActiveUsers'].mean(),
    'InteractingPct': df['InteractingPct'].mean(),
    'OSType_MacOS': 0,
    'OSType_iOS': 0,
    'OSType_Windows': 1
}

# get the prediction for the average_settings
prediction = results.get_prediction(average_settings)

# get the mean response from prediction
mean_response = prediction.predicted_mean
print(f"Mean response for a user with Windows at average settings: {mean_response[0]:.4f}")

# find out the prediction and confidence intervals
pred = prediction.summary_frame(alpha=0.05)
# confidence interval - mean_ci
print("\nConfidence Interval:")
print("[", pred['mean_ci_lower'][0], ", ", pred['mean_ci_upper'][0], "]")

# prediction interval - obs_ci
print("\nPrediction Interval:")
print("[", pred['obs_ci_lower'][0], ", ", pred['obs_ci_upper'][0], "]")

Mean response for a user with Windows at average settings: 54.8693

Confidence Interval:
[ 53.71073185864743 ,  56.02789640613191 ]

Prediction Interval:
[ 43.19858707413758 ,  66.54004119064176 ]


4) Na základě jakýchkoli vypočtených charakteristik argumentujte, zdali je Váš model
„vhodný“ pro další použití.

TODO