# Model regresji prostej

$$Y = \beta_0 + \beta_1 X + \epsilon,$$
gdzie $\epsilon \sim \mathcal{N}(0, \sigma)$.

**Nomenklatura:**

$Y$ - zmienna zależna, zmienna odpowiedzi, zmienna objaśniana

$X$ - zmienna niezależna, predyktor, atrybut

$\beta_0, \beta_1$ - współczynniki regregresji

$\epsilon$ - błąd losowy

**Cel:** 

Przy użyciu par  $(x_1, y_1), (x_2, y_2), \ldots (x_n, y_n)$ odpowiadającym pomiarom, odpowiednio, 
zmiennej niezależnej $X$ i zmiennej zależnej $Y$, wyznaczyć współczynniki 
$b_0, b_1$ tak, aby 
$$y_i \approx b_0 + b_1 x_i$$

**Suma błędów  kwadratów:**
    
$$RSS = e_1^2 + e_2^2 + \ldots + e_n^2 = (y_1 - \hat{y_1})^2 + (y_2 - \hat{y_2})^2 + \ldots + (y_n - \hat{y_n})^2$$

**Funkcja kryterialna:**
    
$$(b_0, b_1) = \arg\!\min_{(b_0, b_1)} \sum_{i=1}^n (y_i - \hat{y_i})^2 = \arg\!\min_{(b_0, b_1)} \sum_{i=1}^n (y_i - (b_0 + b_1 x_i))^2$$

$$b_0 = \frac{\sum_{i=1}^{n}(x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^n(x_i - \overline{x})^2}$$

$$b_1 = \overline{y} - b_1\overline{x}$$

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

import statsmodels.api as sm
import statsmodels.formula.api as smf

from scipy import stats
from patsy import dmatrices
from statsmodels.stats.stattools import durbin_watson

import matplotlib.pyplot as plt

## Pakiet [`statsmodels`](https://www.statsmodels.org/stable/genindex.html)

In [None]:
# help(sm.datasets)

In [None]:
# #pobieranie plików z statsmodels
# cancer = sm.datasets.cancer.load_pandas()

In [None]:
# print(sm.datasets.cancer.DESCRSHORT)
# print(sm.datasets.cancer.DESCRLONG)
# print(sm.datasets.cancer.NOTE)

In [None]:
# cancer.data.head()

In [None]:
# # Pobieranie zbiorow danych z R

In [None]:
# carseats = sm.datasets.get_rdataset(dataname="Carseats", package="ISLR", cache=True)

In [None]:
# #opis
# print(carseats.__doc__)

# Zadanie 1

Wczytaj zbiór `Carseats`, który zawierają dane o sprzedaży fotelików samochodowych pewnej firmy w 400 różnych lokalizacjach:

• sprzedaż jednostek (w tysiącach) w danej lokalizacji (`Sales`),

• cena sprzedaży konkurenta w danej lokalizacji (`CompPrice`),

• poziom dochodów społeczności wdanej lokalizacji w tys. dolarów (`Income`),

• wielkość populacji w danym regionie (`Population`),

• lokalny budżet reklamowy dla firmy w danej lokalizacji (`Advertising`),

• cena sprzedaży w danej lokalizacji (`Price`),

• na ile korzystne jest miejsce na półkach sklepu dla fotelików w danym regionie?
(`Shelveloc`),

• średni wiek ludności lokalnej (`Age`),

• poziom wykształcenia w każdej lokalizacji (`Education`),

• czy położenie sklepu jest w lokalizacji miejskiej? (`Urban`)

• czy sklep znajduje się w USA? (`US`)

1. Interesuje nas zależność wielkości sprzedaży fotelików samochodowych (w tys. jednostek) od ich ceny sprzedaży (zmienne `Sales` i `Price`). Określ zmienną zależną i niezależną, a następnie:
* Narysuj wykres rozproszenia tych zmiennych. 
* Czy zmienne te są zależne? 
* Oblicz dla nich współczynnik korelacji Pearsona. 
       
2. Wyznacz funkcję regresji wielkości sprzedaży fotelików względem ich ceny. Narysuj ją na wykresie rozproszenia.

3. Zweryfikuj dopasowanie modelu:
       a) Czy istnieje związek pomiędzy zmienną zależną a niezależną?
       b) Czy wyraz wolny jest istotny w modelu?
       c) Oblicz i zinterpretuj wartość współczynnika determinacji R2.
       d) Sprawdź, czy spełnione jest założenie o rozkładzie normalnym reszt.
       
4. Powtórz punkty 1-3 dla zależności wielkości sprzedaży fotelików samochodowych (w tys. jednostek) od ich ceny sprzedaży u konkurenta w danej lokalizacji (zmienne `Sales` i `CompPrice`).

In [None]:
# carseats_df = carseats.data
# X = carseats_df['Price']
# y = carseats_df['Sales']



In [None]:
# #metoda1
# model = smf.ols('Sales~Price',data = carseats_df)
# fitted_model = model.fit()
# fitted_model.summary()

In [None]:
# #metoda2

# carseats_df2 = sm.add_constant(carseats.data,prepend = True,has_constant='add')
# carseats_df2 
# X,Y = carseats_df2[['const','Price']],carseats_df2['Sales']
# model2 = sm.OLS(endog = Y,exog = X)
# fitted_model2 = model2.fit()
# fitted_model2.summary()

In [None]:
# #metoda3
# Y,X = dmatrices('Sales~Price',data = carseats_df,return_type = 'dataframe')
# print(Y)
# print(X)
# model3 = sm.OLS(endog = Y,exog = X)
# fitted_model3 = model3.fit()
# fitted_model3.summary()

In [None]:
# #Jak wyciągać poszczególne informacje z summary?
# print("Liczba obserwacji w zbiorze treningowym (No. Observations): {}".format(model3.nobs))
# print("\n")

# print("Liczba stopni swobody (Df Residuals): {}".format(model3.df_resid))
# print("Liczba stopni swobody w modelu (Df Model): {}".format(model3.df_model))
# print("\n")

# print("Współczynnik determinacji R2 (R-squared): {}".format(fitted_model3.rsquared))
# print("Modyfikowany współczynnik determinacji R2 (Adj. R-squared): {}".format(fitted_model3.rsquared_adj))
# print("\n")

# print("Wartość statystyki testowej testu F (F-statistic): {}".format(fitted_model3.fvalue))
# print("P-wartość testu F (Prob (F-statistic)): {}".format(fitted_model3.f_pvalue))
# print("\n")

# print("Wartość funkcji wiarogodności (Log-Likelihood): {}".format(fitted_model3.llf))
# print("AIC: {}".format(fitted_model3.aic))
# print("BIC: {}".format(fitted_model3.bic))
# print("\n")

# normaltest = stats.normaltest(fitted_model3.resid)
# print("Wartość statystyki testowej testu normalności D'Angostino (Omnibus): {}". format(normaltest.statistic))
# print("P-wartość testu D'Angostino (Prob(Omnibus)): {}".format(normaltest.pvalue))
# print("\n")

# print("Skośność (Skew): {}".format(stats.skew(fitted_model3.resid)))
# print("Kurtoza (Kurtosis): {}".format(stats.kurtosis(fitted_model3.resid, fisher = False, bias = True)))
# print("\n")

# normaltest2 = stats.jarque_bera(fitted_model3.resid)
# print("Wartość statystyki Durbina-Watsona: {}".format(durbin_watson(fitted_model3.resid)))
# print("Wartość statystyki Jarque-Bera: {}".format(normaltest2[0]))
# print("P-wartość testu Jarque-Bera: {}".format(normaltest2[1]))
# print("Wskaźnik uwarunkowania (Cond. No): {}".format(fitted_model3.condition_number))
# print("\n")

# print("Wartości dopasowanych wartości parametrów regresji:")
# print(fitted_model3.params)
# print("\n")

# print("Odchylenie standardowe dla dopasowanych estymatorów parametrów regresji:")
# print(fitted_model3.HC0_se)
# print("\n")

# print("Wartość statystki testu t-Studenta")
# print(fitted_model3.tvalues)
# print("\n")

# print("P-wartości testu t-Studenta")
# print(fitted_model3.pvalues)
# print("\n")

# print("Przedział ufności dla współczynnika regresji dla wyrazu wolnego:")
# print(fitted_model3.conf_int_el(0))
# print("Przedział ufności dla współczynnika regresji dla zmiennej TV:")
# print(fitted_model3.conf_int_el(1))

# Przekształcanie zmiennej objaśniającej

# Zadanie 2
Wczytaj dane `pollution.csv` (opis danych: https://www.rdocumentation.org/packages/SMPracticals/versions/1.4-3/topics/pollution). Dopasuj model regresji liniowej postaci: `mort~nox`. Czy model jest dobrze dopasowany do danych? Jeżeli nie, dlaczego?

In [None]:
# #https://www.rdocumentation.org/packages/SMPracticals/versions/1.4-3/topics/pollution
# pollution = pd.read_csv("pollution.csv")

### Metoda Boxa-Coxa

Metoda Boxa-Coxa jest popularnym rozwiązaniem stosowanym do przekształcenia zmiennej. Ważnym założeniem metody jest dodatniość wszystkich wartość.
Metoda przekształca zmienną $z>0 \to t_{\lambda}(z)$, gdzie 
$$
    t_{\lambda}(z)=\left.
    \begin{cases}
    \frac{z^{\lambda}-1}{\lambda} \quad &\text{dla} \quad \lambda\neq 0\\
    \log(z) \quad &\text{dla} \quad \lambda= 0.
    \end{cases}\right.
$$

Wybór $\lambda$ odbywa się na podstawie metody największej wiarogodności. Funkcja wiarogodności zakłada normalność błędów i ma następującą postać:
$$
L(\lambda)=-\frac{n}{2}\log\Big(\frac{\text{RRS}_{\lambda}}{n}\Big) + (\lambda-1)\sum\log y_i,
$$
gdzie $\text{RRS}_{\lambda}$, to $\text{RRS}$ dla odpowiedzi $t_{\lambda}(z)$.

## Zadanie 2.1
Znajdź najlepszy parametr $\lambda$ dla przekształcenia zmiennej niezależnej `nox`, przekształć zmienną zgodnie z uzyskaną wartością i dopasuj model prostej regresji liniowej.

In [None]:
# nox_boxcox = stats.boxcox(pollution['nox'])
# nox_boxcox

In [None]:
# X = sm.add_constant(nox_boxcox[0],prepend = True,has_constant = 'add')
# Y = pollution['mort']
# m_boxcox = sm.OLS(endog = Y,exog = X).fit()
# m_boxcox.summary()

In [None]:
# sns.scatterplot(x=nox_boxcox[0],y=y)
# plt.plot(nox_boxcox[0], m_boxcox.params[1]*nox_boxcox[0]+m_boxcox.params[0],c='red')

# plt.show()

Co w przypadku, gdy zmienna losowa, która chcielibyśmy przekształcić byłaby niedodatnia?

### Metoda Yeo-Johnsona

$$
    t_{\lambda}(z)=\left.
    \begin{cases}
    \frac{(y+1)^{\lambda} -1}{\lambda} \quad &\text{dla} \quad \lambda\neq 0, y\geq 0,\\
    \log(y+1) \quad &\text{dla} \quad \lambda= 0, y\geq0,\\
    -\frac{(-y+1)^{2-\lambda}-1}{2-\lambda} \quad &\text{dla} \quad \lambda\neq 2, y<0,\\
    -\log(-y+1) \quad &\text{dla} \quad \lambda= 2, y<0.
    \end{cases}\right.
$$

In [None]:
# ?stats.yeojohnson

# Zmienne kategoryczne

# Zadanie 3
Wczytaj dane `Salaries` z pakieru `carData` i dopasuj model `salary ~ sex`. Zwróć uwagę na kodowanie zmiennej `sex`. 

In [None]:
# # # http://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-categorical-variables-dummy-coding-essentials-in-r/
# salaries = sm.datasets.get_rdataset(dataname="Salaries", package="carData")
# salaries.data.head()

In [None]:
# y,X = dmatrices('salary~sex',data = salaries.data,return_type = 'dataframe')
# X.head()

In [None]:
# sm.OLS(y,X).fit().summary()

**Ważne:**

Gdy w danych występują zmienne kategoryczne, jak np. w tym przypadku zmienna `sex`, postępujemy z nią następująco

1. tworzymy, nową zmienną (ang. *dummy variable*), która

    **1**, gdy osoba jest mężczyzną,
    
    **0**, gdy osoba jest kobietą,
    
    
2. zmienna `sex` jest traktowana w równaniu regresji jako:

  $b_0 + b_1$ gdy osoba jest mężczyzną,

  $b_0$ gdy osoba jest kobietą.

teraz zmieniamy poziom referencyjny aby był nim Male wówczas zmienna sex jest traktowana w równaniu regresji jako:\
$c_0$ gdy osoba jest mężczyzną,\
$c_0+ c_1$ gdy osoba jest kobietą.\
Zatem $c_0 = b_0+b_1$ i $c_1 = b_0-c_0 = -b_1$

In [None]:
# y,X = dmatrices('salary~C(sex,Treatment("Male"))',data = salaries.data,return_type = 'dataframe')
# X.head()

In [None]:
# sm.OLS(y,X).fit().summary()

## Zadanie 3.1 
Sprawdź jak została zakodowana zmienna `ShelveLoc` w zbiorze danych `Carseats`. Zmień poziom wartości dla tej zmiennej, sprawdź różnice w modelu.

In [None]:
# np.unique(carseats_df.ShelveLoc) #3 poziomy

# Zadanie 4
Napisz funkcję, która dla wybranej zmiennej niezależnej dopasuje model prostej liniowej postaci: `Sales ~ X`, gdzie `X` to wybrana zmienna. Następnie, korzystając z napisanej funkcji dopasuj model do każdej zmiennej niezależnej w zbiorze `Carseats`.

In [None]:
# def XY_generator(col):
#  return(dmatrices('Sales ~ {}'.format(col), data=carseats.data, return_type='dataframe'))

# plt.figure(figsize=(20, 40))

# columns = carseats_df.columns[carseats_df.columns != 'Sales']

# for i, col in enumerate(columns):
#    #dopasowujemy dla zmiennej zależnej Sales  jedną kolumnę z danych (w każdym obrocie inną)
#    Y, X = XY_generator(col)

#    plt.subplot(len(columns) // 2 + 1, 2, i+1)
#    #rysujemy wykres rozproszenia dla każdej pary zmienna niezależna vs zmienna zależna
#    plt.scatter(carseats_df[col], Y, marker='o')
    
#    #dopasowujemy model jednej zmiennej
#    model = sm.OLS(endog=Y, exog=X)
#    fitted_model = model.fit()
#    plt.plot(carseats_df[col], fitted_model.fittedvalues, color='red')
    
#    plt.xlabel(col)
#    plt.ylabel('Sales')
#    #dopisujemy charakterystyki danych modeli R^2 im większe tym lepiej,
#    #AIC i BIC im mniej tym lepiej
#    plt.title("R2={}, AIC={}, BIC={}".format(np.round(fitted_model.rsquared, 2), 
#                                            np.round(fitted_model.aic, 2),
#                                            np.round(fitted_model.bic, 2)))