# Model regresji liniowej w scikit-learn

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import statsmodels.api as sm
import statsmodels.formula.api as smf

from scipy import stats

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.pipeline import Pipeline

# Zadanie 1
Wczytaj zbiór `Carseats`, który zawierają dane o sprzedaży fotelików samochodowych pewnej firmy w 400 różnych lokalizacjach:

a) dopasuj model regresji liniowej `Sales~Price`;

b) dopasuj model regresji liniowej `Sales~Price + Advertising`;

c) dopasuj model regresji liniowej `Sales~.`;

d) dopasuj model regresji wielomianowej stopnia 2 dla zmiennej `Price`;

e) dopasuj model regresji wielomianowej stopnia 3 dla zmiennej `Price`;

In [3]:
carseats = sm.datasets.get_rdataset(dataname="Carseats", package="ISLR", cache=True)
carseats.data

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
0,9.50,138,73,11,276,120,Bad,42,17,Yes,Yes
1,11.22,111,48,16,260,83,Good,65,10,Yes,Yes
2,10.06,113,35,10,269,80,Medium,59,12,Yes,Yes
3,7.40,117,100,4,466,97,Medium,55,14,Yes,Yes
4,4.15,141,64,3,340,128,Bad,38,13,Yes,No
...,...,...,...,...,...,...,...,...,...,...,...
395,12.57,138,108,17,203,128,Good,33,14,Yes,Yes
396,6.14,139,23,3,37,120,Medium,55,11,No,Yes
397,7.41,162,26,12,368,159,Medium,40,18,Yes,Yes
398,5.94,100,79,7,284,95,Bad,50,12,Yes,Yes


In [4]:
np.array(carseats.data.Price).reshape(-1, 1)  # scikit-learn pracuje na macierzach 2D, więc trzeba zmienić wymiar danych

array([[120],
       [ 83],
       [ 80],
       [ 97],
       [128],
       [ 72],
       [108],
       [120],
       [124],
       [124],
       [100],
       [ 94],
       [136],
       [ 86],
       [118],
       [144],
       [110],
       [131],
       [ 68],
       [121],
       [131],
       [109],
       [138],
       [109],
       [113],
       [ 82],
       [131],
       [107],
       [ 97],
       [102],
       [ 89],
       [131],
       [137],
       [128],
       [128],
       [ 96],
       [100],
       [110],
       [102],
       [138],
       [126],
       [124],
       [ 24],
       [134],
       [ 95],
       [135],
       [ 70],
       [108],
       [ 98],
       [149],
       [108],
       [108],
       [129],
       [119],
       [144],
       [154],
       [ 84],
       [117],
       [103],
       [114],
       [123],
       [107],
       [133],
       [101],
       [104],
       [128],
       [ 91],
       [115],
       [134],
       [ 99],
       [ 99],
      

In [5]:
# Sales ~ Price

lm1 = LinearRegression(fit_intercept=True)
X = np.array(carseats.data.Price).reshape(-1, 1)
lm1.fit(X=X, y=carseats.data.Sales)

print(lm1.coef_)
print(lm1.intercept_)

[-0.05307302]
13.641915176780913


In [6]:
lm1.score(X, carseats.data.Sales) #R2

0.19798115021119478

In [7]:
lm1.predict(X)

array([ 7.27315296,  9.23685464,  9.3960737 ,  8.49383238,  6.84856881,
        9.82065785,  7.91002918,  7.27315296,  7.06086088,  7.06086088,
        8.33461333,  8.65305144,  6.42398466,  9.07763559,  7.37929899,
        5.99940051,  7.80388314,  6.68934975, 10.03294992,  7.22007994,
        6.68934975,  7.85695616,  6.31783862,  7.85695616,  7.64466409,
        9.28992766,  6.68934975,  7.9631022 ,  8.49383238,  8.22846729,
        8.91841653,  6.68934975,  6.37091164,  6.84856881,  6.84856881,
        8.5469054 ,  8.33461333,  7.80388314,  8.22846729,  6.31783862,
        6.95471485,  7.06086088, 12.36816273,  6.5301307 ,  8.59997842,
        6.47705768,  9.92680388,  7.91002918,  8.44075936,  5.73403542,
        7.91002918,  7.91002918,  6.79549579,  7.32622598,  5.99940051,
        5.46867033,  9.18378162,  7.43237201,  8.17539427,  7.59159107,
        7.1139339 ,  7.9631022 ,  6.58320372,  8.28154031,  8.12232125,
        6.84856881,  8.81227049,  7.53851805,  6.5301307 ,  8.38

In [8]:
# Sales ~ Price + Advertising

X2 = np.array(carseats.data)[:, np.array([3, 5])]
X2  # to już jest macierz 2D, więc nie trzeba przekształcać wymiarów

array([[11, 120],
       [16, 83],
       [10, 80],
       [4, 97],
       [3, 128],
       [13, 72],
       [0, 108],
       [15, 120],
       [0, 124],
       [0, 124],
       [9, 100],
       [4, 94],
       [2, 136],
       [11, 86],
       [11, 118],
       [5, 144],
       [0, 110],
       [13, 131],
       [0, 68],
       [16, 121],
       [2, 131],
       [12, 109],
       [6, 138],
       [0, 109],
       [16, 113],
       [0, 82],
       [11, 131],
       [0, 107],
       [0, 97],
       [15, 102],
       [0, 89],
       [16, 131],
       [12, 137],
       [13, 128],
       [0, 128],
       [11, 96],
       [0, 100],
       [5, 110],
       [0, 102],
       [0, 138],
       [0, 126],
       [0, 124],
       [0, 24],
       [11, 134],
       [6, 95],
       [0, 135],
       [14, 70],
       [0, 108],
       [0, 98],
       [0, 149],
       [18, 108],
       [0, 108],
       [3, 129],
       [13, 119],
       [13, 144],
       [5, 154],
       [0, 84],
       [0, 117],
       [

In [9]:
lm2 = LinearRegression(fit_intercept=True)
lm2.fit(X=X2, y=carseats.data.Sales)

print(lm2.coef_)
print(lm2.intercept_)

[ 0.12310706 -0.05461304]
13.003426965510574


In [17]:
# Sales ~ .

X3 = carseats.data
X3 = pd.get_dummies(X3, drop_first=True)  # 'one-hot encoding' dla zmiennych kategorycznych
X3

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,Age,Education,ShelveLoc_Good,ShelveLoc_Medium,Urban_Yes,US_Yes
0,9.50,138,73,11,276,120,42,17,0,0,1,1
1,11.22,111,48,16,260,83,65,10,1,0,1,1
2,10.06,113,35,10,269,80,59,12,0,1,1,1
3,7.40,117,100,4,466,97,55,14,0,1,1,1
4,4.15,141,64,3,340,128,38,13,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
395,12.57,138,108,17,203,128,33,14,1,0,1,1
396,6.14,139,23,3,37,120,55,11,0,1,0,1
397,7.41,162,26,12,368,159,40,18,0,1,1,1
398,5.94,100,79,7,284,95,50,12,0,0,1,1


In [18]:
X3 = np.array(X3)[:, 1:]
lm3 = LinearRegression(fit_intercept=True)
lm3.fit(X=X3, y=carseats.data.Sales)

print(lm3.coef_)
print(lm3.intercept_)

[ 9.28153421e-02  1.58028363e-02  1.23095089e-01  2.07877065e-04
 -9.53579188e-02 -4.60451630e-02 -2.11018389e-02  4.85018271e+00
  1.95671481e+00  1.22886397e-01 -1.84092825e-01]
5.660623063125395


In [19]:
# regresja wielomianowa 2-go stopnia

price = np.array(carseats.data.Price).reshape(-1, 1)

poly2 = PolynomialFeatures(degree=2, include_bias=False)  # brak kolumny z wyrazem wolnym
price2 = poly2.fit_transform(price)
#print(price2)

lm4 = LinearRegression(fit_intercept=True)  # ... ale tutaj wyraz wolny jest uwzględniany
lm4.fit(X=price2, y=carseats.data.Sales)

print(lm4.coef_)
print(lm4.intercept_)
lm4.score(price2, carseats.data.Sales)

[-6.4591343e-02  5.0377893e-05]
14.272018030033502


0.1982221162426384

In [20]:
# regresja wielomianowa 3-go stopnia

price = np.array(carseats.data.Price).reshape(-1, 1)

poly3 = PolynomialFeatures(degree=3, include_bias=False)
price3 = poly3.fit_transform(price)
#print(price2)

lm5 = LinearRegression(fit_intercept=True)
lm5.fit(X=price3, y=carseats.data.Sales)

print(lm5.coef_)
print(lm5.intercept_)
lm5.score(price3, carseats.data.Sales)

[-1.27155678e-01  6.42436294e-04 -1.77055030e-06]
16.337010828654726


0.19891039596334037

## make_pipelines 

https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html?highlight=make_pipeline#sklearn.pipeline.make_pipeline

In [21]:
pipeline1 = make_pipeline(PolynomialFeatures(degree=2, include_bias=False), LinearRegression(fit_intercept=True))
lm4 = pipeline1.fit(X=price, y=carseats.data.Sales)

print('Coef =', lm4[1].coef_)
print('Intercept =', lm4[1].intercept_)
print('Score =', lm4.score(price, carseats.data.Sales))

Coef= [-6.4591343e-02  5.0377893e-05]
Intercept= 14.272018030033502
Score= 0.1982221162426384


# Wybór i ocena najlepszego modelu regresji

Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności poprawnego przewidywania.

**Częstym błędem osób początkujących w zakresie analizy danych jest przeprowadzanie testów na tym samym zbiorze na którym system był uczony**. Takie rozwiązanie nie jest poprawnym miernikiem jakości nauczonego modelu i prowadzi do wyników które są przeszacowane, czyli nadmiernie optymistyczne.

Zwykle głównym celem budowy modeli predykcyjnych jest późniejsze wykorzystanie przewidywań modelu na danych niedostępnych podczas procesu uczenia więc opracowano szereg metod pozwalających na znacznie bardziej uczciwy pomiar dokładności.

### Podział zbioru na część:
- treningową,
- testową.

Idea oceny modelu lub doboru odpowiednich parametrów modelu sprowadza się wówczas do nauczenia modelu na części uczącej oraz przetestowania go na części testowej, która nie była wykorzystywana w procesie uczenia modelu. Dzięki wydzieleniu dwóch niezależnych podzbiorów, wektory części testowej zawierają informację o faktycznym wyniku jaki powinien zostać osiągnięty, natomiast nauczony (na części uczącej zbioru) model dostarcza wyników przewidywań.

lub 

- treningową,
- walidacyjną,
- testową.

Nierzadko, z wydzielenia próby walidacyjnej oraz testowej trzeba zrezygnować i wszystkie dane uznać za elementy próby uczącej. Jak wówczas porównywać różne modele?

Trzeba się odwołać do wielokrotnego wykorzystania elementów próby uczącej, tak przy tym zorganizowanego, by wprowadzane tym sposobem obciążenie otrzymywanych oszacowań było możliwie małe.

## Kroswalidacja - sprawdzanie krzyżowe

1. Próba ucząca zostaje podzielona na $K$ możliwie równych części.

2. Z próby uczącej tworzy się $K$ różnych pseudoprób, powstających przez usuwanie z próby oryginalnej jednej z jej $K$ części. Każda pseudopróba składa się $K-1$ części próby uczącej.

3. Dany model jest budowany $K$-krotnie, za każdym razem na podstawie innej pseudopróby.

4. Otrzymujemy $K$ wersji tego samego modelu.

5. Każda $k$-ta wersja modelu jest oceniana na tej części oryginalnej próby uczącej, która nie weszła do $k$-tej pseudopróby. Tym sposobem, oceny danej wersji modelu dokonujemy na obserwacjach, które nie brały udziałuw jego konstrukcji.

6. Oszacowanie błędu kroswalidacji wyznaczamy jako średnią z błędów każdej wersji modelu.

## Pomiary błędów

### Błąd średniokwadratowy (ang. *Mean squared error*)
$$
\text{MSE} = \frac{1}{n}\sum_{i=1}^n(y_i - \hat{y}_i)^2.
$$

### Mediana błędu bezwzględnego (ang. *Median absolute error*)
$$
\text{MAE}= \text{Med}(|y_i - \hat{y}_i|).
$$

## Zadanie 2
Wczytaj zbiór `Carseats`, a następnie

1. Podziel zbiór na część treningową i testową w stosunku 7:3.

2. Naucz dowolny model na części treningowej: 
    - wyznacz błąd dopasowania wykorzystując MSE i MAE;
    - wyznacz te same błędy wykorzystując metodę kroswalidacji.

3. Sprawdź jakość predykcji. Na podstawie nauczonego modelu na części treningowej, dokonaj predykcji wartość `Sales` dla wartości ze zbioru testowego. Porównaj jakość dopasowania z jakością predykcji.

In [30]:
from sklearn.model_selection import cross_val_score, train_test_split
import sklearn.metrics as metrics

carseats = sm.datasets.get_rdataset(dataname="Carseats", package="ISLR", cache=True)

In [79]:
# Podział zbioru na część treningową i na część testową

y = carseats.data.Sales
X = carseats.data.iloc[:, 1:]
X = pd.get_dummies(X, drop_first=True)  # 'one-hot encoding' dla zmiennych kategorycznych
X.head()

Unnamed: 0,CompPrice,Income,Advertising,Population,Price,Age,Education,ShelveLoc_Good,ShelveLoc_Medium,Urban_Yes,US_Yes
0,138,73,11,276,120,42,17,0,0,1,1
1,111,48,16,260,83,65,10,1,0,1,1
2,113,35,10,269,80,59,12,0,1,1,1
3,117,100,4,466,97,55,14,0,1,1,1
4,141,64,3,340,128,38,13,0,0,1,0


In [80]:
#random_state, żeby podział był losowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

lm = LinearRegression()  # domyślnie: 'fit_intercept=True'
lm.fit(X=X_train, y=y_train)

print(lm.coef_)
print(lm.intercept_)

[ 9.13761046e-02  1.50032994e-02  1.28851452e-01 -1.74892697e-04
 -9.47556659e-02 -4.97993173e-02 -4.46078252e-02  4.98921795e+00
  1.89470815e+00  4.44827004e-02 -2.67821483e-01]
6.476544743346642


In [81]:
print('R2 ', lm.score(X_train, y_train))

print('MSE', metrics.mean_squared_error(y_train, lm.predict(X_train)))
print('MAE', metrics.mean_absolute_error(y_train, lm.predict(X_train)))
print('mSE', metrics.median_absolute_error(y_train, lm.predict(X_train)))

R2  0.8877516608074592
MSE 0.9085503897084769
MAE 0.7652564384688193
mSE 0.6619545609541602


In [82]:
lm = LinearRegression()
cross_val_score(lm, X, y, cv=3)

array([0.86399143, 0.87060788, 0.82999553])

In [83]:
lm = LinearRegression()
print('R2 ', cross_val_score(lm, X, y, cv = 3).mean())

print('MSE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_mean_squared_error').mean())
print('MAE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_mean_absolute_error').mean())
print('mAE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_median_absolute_error').mean())

R2  0.8548649474962313
MSE 1.1394870402492339
MAE 0.8514980302079936
mAE 0.7107251854175555


In [84]:
lm = LinearRegression()
lm.fit(X=X_train, y=y_train)

print('MSE', metrics.mean_squared_error(y_test, lm.predict(X_test)))
print('MAE', metrics.mean_absolute_error(y_test, lm.predict(X_test)))
print('mAE', metrics.median_absolute_error(y_test, lm.predict(X_test)))

MSE 1.305247392983758
MAE 0.9042605739350009
mAE 0.7750702168988828


In [85]:
# model z wyrzuconymi zmiennymi, od których model nie zależy (patrz 02_regresja_wielokrotna)

y = carseats.data.Sales
X = carseats.data[['ShelveLoc', 'CompPrice', 'Income', 'Advertising', 'Price', 'Age']]
X = pd.get_dummies(X, drop_first=True)  # 'one-hot encoding' dla zmiennych kategorycznych
X.head()

Unnamed: 0,CompPrice,Income,Advertising,Price,Age,ShelveLoc_Good,ShelveLoc_Medium
0,138,73,11,120,42,0,0
1,111,48,16,83,65,1,0
2,113,35,10,80,59,0,1
3,117,100,4,97,55,0,1
4,141,64,3,128,38,0,0


In [86]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

lm = LinearRegression()
lm.fit(X=X_train, y=y_train)

print('MSE', metrics.mean_squared_error(y_test, lm.predict(X_test)))
print('MAE', metrics.mean_absolute_error(y_test, lm.predict(X_test)))
print('mAE', metrics.median_absolute_error(y_test, lm.predict(X_test)))

MSE 1.2679815430135775
MAE 0.8952869412416551
mAE 0.7313913559668297


In [87]:
lm = LinearRegression()
print('R2 ', cross_val_score(lm, X, y, cv = 3).mean())

print('MSE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_mean_squared_error').mean())
print('MAE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_mean_absolute_error').mean())
print('mAE', -cross_val_score(lm, X, y, cv = 3, scoring ='neg_median_absolute_error').mean())

R2  0.8602437421288149
MSE 1.097358475157111
MAE 0.8412296032064074
mAE 0.6923327198682413


# *Zadanie 3
Napisz własną funkcję do kroswalidacji (użyj `from sklearn.model_selection import KFold`).

In [88]:
from sklearn.model_selection import KFold 

def cv_fun(model, X, y, cv, score_fun):
    
    kf = KFold(n_splits=cv)  # KFold dokonuje podziału na n_splits części
    scores = []
    
    # w każdym obrocie pętli pod test_index są indeksy innej części, a pozostałe części (train_index) służą do uczenia
    for train_index, test_index in kf.split(X):
        
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]
        
        model.fit(X=X_train, y=y_train)
        
        y_pred = model.predict(X_test)
        scores.append(score_fun(y_test, y_pred))
    
    return np.array(scores)

In [89]:
cv_fun(lm, X, y, 10, metrics.mean_squared_error).mean()

1.0565488563852272

In [90]:
cv_fun(lm, X, y, 10, metrics.median_absolute_error).mean()

0.7199094704282333

# Zadanie 4
Dla zbióru `Carseats`,

1. Podziel zbiór na część treningową i testową;

2. Dopasuj model regresji:

        a) liniowej `Sales~Price`;

        b) liniowej `Sales~Price + Advertising`;

        c) liniowej `Sales~.`;

        d) wielomianowej stopnia 2 dla zmiennej `Price`;

        e) wielomianowej stopnia 3 dla zmiennej `Price`;

3. Wybierz najlepszy model na podstawie miar jakości otrzymanych przy użyciu kroswalidacji 10-krotnej.

4. Dla najlepszego modelu dokonaj predykcji na zbiorze testowym. Wyznacz jakość predykcji.

In [91]:
# zmienne zależne i niezależne (w tym 'one-hot-encoding')

y = carseats.data['Sales']
X = carseats.data.drop('Sales', axis=1)
X = pd.get_dummies(X)

In [92]:
# 1. podział danych na część treningową i testową
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

In [93]:
# 2. tworzenie regresji wielomianowej (w tym zwykłej regresji liniowej) oraz liczenie score'ów metodą kroswalidacji

def fit_model(X_train, y_train, degree=1):
    
    model = make_pipeline(
        PolynomialFeatures(degree=degree, include_bias=False),
        LinearRegression()
    )
    
    cv_R2 = cross_val_score(model, X_train, y_train, scoring='r2', cv=10).mean()
    
    cv_MSE = -cross_val_score(model, X_train, y_train, scoring='neg_mean_squared_error', cv=10).mean()
    cv_MAE = -cross_val_score(model, X_train, y_train, scoring='neg_mean_absolute_error', cv=10).mean()
    cv_mAE = -cross_val_score(model, X_train, y_train, scoring='neg_median_absolute_error', cv=10).mean()
    
    return {'cv_R2': cv_R2, 'cv_MSE': cv_MSE, 'cv_MAE': cv_MAE, 'cv_mAE': cv_mAE}

In [94]:
# 3. wybór najlepszego modelu na podstawie miar jakości otrzymanych przy użyciu kroswalidacji 10-krotnej.

results = pd.DataFrame(index=['cv_R2', 'cv_MSE', 'cv_MAE', 'cv_mAE'])

results['lm(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1),
                                       y_train=y_train).values()

results['lm(Sales~Price+Advertising)'] = fit_model(X_train=X_train[['Price', 'Advertising']],
                                                   y_train=y_train).values()

results['lm(Sales~.)'] = fit_model(X_train=X_train, y_train=y_train).values()

results['poly2(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1),
                                          y_train=y_train, degree=2).values()

results['poly3(Sales~Price)'] = fit_model(X_train=np.array(X_train['Price']).reshape(-1, 1),
                                          y_train=y_train, degree=3).values()

results  # najlepsze wyniki na zbiorze treningowym otrzymał model: lm(Sales~.)

Unnamed: 0,lm(Sales~Price),lm(Sales~Price+Advertising),lm(Sales~.),poly2(Sales~Price),poly3(Sales~Price)
cv_R2,0.134812,0.218384,0.856823,0.133412,0.131569
cv_MSE,6.684562,6.060563,0.998997,6.727347,6.703862
cv_MAE,2.080495,1.933845,0.799955,2.080605,2.07979
cv_mAE,1.721873,1.597759,0.719593,1.749296,1.753124


In [95]:
# 4. jakość predykcji na danych testowych dla najlepszego modelu

model = LinearRegression().fit(X_train, y_train)  # model: lm(Sales~.)
y_pred = model.predict(X_test)

print("Test MSE: {}".format(metrics.mean_squared_error(y_pred=y_pred, y_true=y_test)))
print("Test MAE: {}".format(metrics.mean_absolute_error(y_pred=y_pred, y_true=y_test)))
print("Test mAE: {}".format(metrics.median_absolute_error(y_pred=y_pred, y_true=y_test)))

Test MSE: 1.3052473929837556
Test MAE: 0.9042605739349993
Test mAE: 0.7750702168988899
