# Model regresji liniowej w scikit-learn

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import statsmodels.api as sm
import statsmodels.formula.api as smf

from scipy import stats

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline

# Zadanie 1
Wczytaj zbiór `Carseats`, który zawierają dane o sprzedaży fotelików samochodowych pewnej firmy w 400 różnych lokalizacjach:

a) dopasuj model regresji liniowej `Sales~Price`;

b) dopasuj model regresji liniowej `Sales~Price + Advertising`;

c) dopasuj model regresji liniowej `Sales~.`;

d) dopasuj model regresji wielomianowej stopnia 2 dla zmiennej `Price`;

e) dopasuj model regresji wielomianowej stopnia 3 dla zmiennej `Price`;

In [None]:
carseats = sm.datasets.get_rdataset(dataname="Carseats", package="ISLR", cache=True)
print(carseats.data)

In [None]:
np.array(carseats.data.Price).reshape(-1,1)

In [None]:
lm1 = LinearRegression(fit_intercept=True)
X = np.array(carseats.data.Price).reshape(-1,1)
lm1.fit(X=X,y=carseats.data.Sales)
print(lm1.coef_)
print(lm1.intercept_)

In [None]:
lm1.score(X,carseats.data.Sales) #R2

In [None]:
lm1.predict(X)

In [None]:
X2 = np.array(carseats.data)[:,np.array([3,5])]
X2

In [None]:
lm2 = LinearRegression(fit_intercept=True)
lm2.fit(X=X2,y=carseats.data.Sales)
print(lm2.coef_)
print(lm2.intercept_)

In [None]:
X3 = carseats.data
X3 = pd.get_dummies(X3,drop_first = True)
X3

In [None]:
X3 = np.array(X3)[:,1:]
lm3 = LinearRegression(fit_intercept=True)
lm3.fit(X=X3,y=carseats.data.Sales)
print(lm3.coef_)
print(lm3.intercept_)

In [None]:
price = np.array(carseats.data.Price).reshape(-1,1)

poly2 = PolynomialFeatures(degree = 2,include_bias=False)
price2 = poly2.fit_transform(price)
#print(price2)
lm4 = LinearRegression(fit_intercept=True)
lm4.fit(X=price2,y=carseats.data.Sales)
print(lm4.coef_)
print(lm4.intercept_)
lm4.score(price2,carseats.data.Sales)

### make_pipelines 

https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html?highlight=make_pipeline#sklearn.pipeline.make_pipeline

In [None]:
pipeline1 = make_pipeline(PolynomialFeatures(degree = 2,include_bias=False),LinearRegression(fit_intercept=True))
lm4 = pipeline1.fit(X = price,y = carseats.data.Sales)
print('Coef=',lm4[1].coef_)
print('Intercept=',lm4[1].intercept_)
print('Score=', lm4.score(price,carseats.data.Sales))

# Wybór i ocena najlepszego modelu regresji

Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności poprawnego przewidywania.

**Częstym błędem osób początkujących w zakresie analizy danych jest przeprowadzanie testów na tym samym zbiorze na którym system był uczony**. Takie rozwiązanie nie jest poprawnym miernikiem jakości nauczonego modelu i prowadzi do wyników które są przeszacowane, czyli nadmiernie optymistyczne.

Zwykle głównym celem budowy modeli predykcyjnych jest późniejsze wykorzystanie przewidywań modelu na danych niedostępnych podczas procesu uczenia więc opracowano szereg metod pozwalających na znacznie bardziej uczciwy pomiar dokładności.

### Podział zbioru na część:
- treningową,
- testową.

Idea oceny modelu lub doboru odpowiednich parametrów modelu sprowadza się wówczas do nauczenia modelu na części uczącej oraz przetestowania go na części testowej, która nie była wykorzystywana w procesie uczenia modelu. Dzięki wydzieleniu dwóch niezależnych podzbiorów, wektory części testowej zawierają informację o faktycznym wyniku jaki powinien zostać osiągnięty, natomiast nauczony (na części uczącej zbioru) model dostarcza wyników przewidywań.

lub 

- treningową,
- walidacyjną,
- testową.

Nierzadko, z wydzielenia próby walidacyjnej oraz testowej trzeba zrezygnować i wszystkie dane uznać za elementy próby uczącej. Jak wówczas porównywać różne modele?

Trzeba się odwołać do wielokrotnego wykorzystania elementów próby uczącej, tak przy tym zorganizowanego, by wprowadzane tym sposobem obciążenie otrzymywanych oszacowań było możliwie małe.

## Kroswalidacja - sprawdzanie krzyżowe

1. Próba ucząca zostaje podzielona na $K$ możliwie równych części.

2. Z próby uczącej tworzy się $K$ różnych pseudoprób, powstających przez usuwanie z próby oryginalnej jednej z jej $K$ części. Każda pseudopróba składa się $K-1$ części próby uczącej.

3. Dany model jest budowany $K$-krotnie, za każdym razem na podstawie innej pseudopróby.

4. Otrzymujemy $K$ wersji tego samego modelu.

5. Każda $k$-ta wersja modelu jest oceniana na tej części oryginalnej próby uczącej, która nie weszła do $k$-tej pseudopróby. Tym sposobem, oceny danej wersji modelu dokonujemy na obserwacjach, które nie brały udziałuw jego konstrukcji.

6. Oszacowanie błędu kroswalidacji wyznaczamy jako średnią z błędów każdej wersji modelu.

## Pomiary błędów

### Błąd średniokwadratowy (ang. *Mean squared error*)
$$
\text{MSE} = \frac{1}{n}\sum_{i=1}^n(y_i - \hat{y}_i)^2.
$$

### Mediana błędu bezwzględnego (ang. *Median absolute error*)
$$
\text{MAE}= \text{Med}(|y_i - \hat{y}_i|).
$$

## Zadanie 2
Wczytaj zbiór `Carseats`, a następnie

1. Podziel zbiór na część treningową i testową w stosunku 7:3.

2. Naucz dowolny model na części treningowej: 
    - wyznacz błąd dopasowania wykorzystującz MSE i MAE;
    - wyznacz te same błędy wykorzystując metodę kroswalidacji.

3. Sprawdź jakość predykcji. Na podstawie nauczonego modelu na części treningowej, dokonaj predykcji wartość `Sales` dla wartości ze zbioru testowego. Porównaj jakość dopasowania z jakością predykcji.

In [None]:
from sklearn.model_selection import cross_val_score, train_test_split

In [None]:
carseats = sm.datasets.get_rdataset(dataname="Carseats", package="ISLR", cache=True)

In [None]:
# Podział zbioru na część treningową i na część testową
y = carseats.data.Sales
X = carseats.data.iloc[:,1:]
X = pd.get_dummies(X,drop_first=True)
print(X.head())
#randomstate bo podział losowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

In [None]:
lm = LinearRegression()
lm.fit(X=X_train,y=y_train)

In [None]:
import sklearn.metrics as metrics

In [None]:
print(lm.score(X_train,y_train))
print(metrics.mean_squared_error(y_train, lm.predict(X_train)))
print(metrics.mean_absolute_error(y_train, lm.predict(X_train)))
print(metrics.median_absolute_error(y_train, lm.predict(X_train)))

In [None]:
lm = LinearRegression()
cross_val_score(lm,X, y, cv = 3)

In [None]:
lm = LinearRegression()
print(cross_val_score(lm,X, y, cv = 3).mean())
print(-cross_val_score(lm,X, y, cv = 3,scoring = 'neg_mean_squared_error').mean())
print(-cross_val_score(lm,X, y, cv = 3,scoring = 'neg_median_absolute_error').mean())

In [None]:
lm = LinearRegression()
lm.fit(X=X_train,y=y_train)
print(metrics.mean_squared_error(y_test, lm.predict(X_test)))
print(metrics.mean_absolute_error(y_test, lm.predict(X_test)))
print(metrics.median_absolute_error(y_test, lm.predict(X_test)))

# *Zadanie 3
Napisz własną funkcję do kroswalidacji (użyj `from sklearn.model_selection import KFold`).

In [None]:
from sklearn.model_selection import KFold 
#KFold dokonuje podziału na n_splits części
#W każdym obrocie pętli pod test_index są indeksy innej części, a reszta części, które pozostają, służy do uczenia

In [None]:
def cv_fun(model, X, y, cv, score_fun):
    
    kf = KFold(n_splits=cv)
    scores = []
    
    for train_index, test_index in kf.split(X):
        
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]
        model.fit(X=X_train, y=y_train)
        y_pred = model.predict(X_test)
        scores.append(score_fun(y_test, y_pred))
    
    return np.array(scores)

In [None]:
cv_fun(lm, X, y, 10, metrics.mean_squared_error).mean()

In [None]:
cv_fun(lm, X, y, 10, metrics.median_absolute_error).mean()

# Zadanie 4
Dla zbióru `Carseats`,

1. Podziel zbiór na część treningową i testową;

2. Dopasuj model regresji:

a) liniowej `Sales~Price`;

b) liniowej `Sales~Price + Advertising`;

c) liniowej `Sales~.`;

d) wielomianowej stopnia 2 dla zmiennej `Price`;

e) wielomianowej stopnia 3 dla zmiennej `Price`;

3. Wybierz najlepszy model na podstawie miar jakości otrzymanych przy użyciu kroswalidacji 10-krotnej.

4. Dla najlepszego modelu dokonaj predykcji na zbiorze testowy. Wyznacz jakość predykcji.

In [None]:
#zmienne zależne i niezależne i one-hot-encoding
y = carseats.data['Sales']
X = carseats.data.drop('Sales', axis=1)
X = pd.get_dummies(X)

In [None]:
#1
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

In [None]:
#2 Funkcja do tworzenia regresji wielomianowej (w szególności stopnia 1 - więczwykłej regresji liniowej) 
#a także do liczenia scoreów metodą kroswalidacji

def fit_model(X_train, y_train, degree=1):
    
    model = make_pipeline(
        PolynomialFeatures(degree=degree,include_bias=False),
        LinearRegression()
    )
    
    cv_r2 = cross_val_score(model, X_train, y_train, scoring='r2', cv=10).mean()
    cv_mse = -cross_val_score(model, X_train, y_train, scoring='neg_mean_squared_error', cv=10).mean()
    cv_mae = -cross_val_score(model, X_train, y_train, scoring='neg_median_absolute_error', cv=10).mean()
    
    return {'cv_r2': cv_r2, 'cv_mse': cv_mse, 'cv_mae': cv_mae}

In [None]:
# 3. Wybierz najlepszy model na podstawie miar jakości otrzymanych przy użyciu kroswalidacji 10-krotnej.

results = pd.DataFrame(index=['cv_r2', 'cv_mse', 'cv_mae'])
results['lm(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1), y_train=y_train).values()
results['lm(Sales~Price+Advertising)'] = fit_model(X_train=X_train[['Price', 'Advertising']], y_train=y_train).values()
results['lm(Sales~.)'] = fit_model(X_train=X_train, y_train=y_train).values()
results['poly2(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1), y_train=y_train, degree=2).values()
results['poly3(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1), y_train=y_train, degree=3).values()
results

# Najlepsze wyniki na zbiorze treningowym otrzymał model: lm(Sales~.)

In [None]:
model = LinearRegression().fit(X_train, y_train)
y_pred = model.predict(X_test)

In [None]:
#4 na testowym jakość predykcji
print("Test MSE: {}".format(metrics.mean_squared_error(y_pred=y_pred, y_true=y_test)))
print("Test MAE: {}".format(metrics.mean_absolute_error(y_pred=y_pred, y_true=y_test)))