# Regularyzacja w modelu regresji - wstęp

In [None]:
import numpy as np
import pandas as pd
import random

import matplotlib.pyplot as plt
%matplotlib inline

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 10

from scipy import stats
from patsy import dmatrices

from statsmodels.api import OLS, add_constant
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

# Zadanie 1a

Wygeneruj $n$ par punktów (x, y) takich, że
$$
y = x - 2x^2 + 0.5x^3 + e,
$$
gdzie $e\sim\mathcal{N}(\mu, \sigma)$. 
A następnie dopasuj model

a) regresji liniowej: $y=\beta_0 + \beta_1\cdot x$

b) regresji wielomianowej stopnia 2: $y=\beta_0 + \beta_1\cdot x + \beta_2\cdot x^2$,

c) regresji wielomianowej stopnia 3: $y=\beta_0 + \beta_1\cdot x + \beta_2\cdot x^2 + \beta_3\cdot x^3$,

d) regresji wielomianowej stopnia 20: $y=\beta_0 + \beta_1\cdot x + \beta_2\cdot x^2 + \ldots + \beta_{20}\cdot x^{20}$.

Zaznacz na wykresie rozproszenia punktów $(x, y)$ funkcję regresji.

**Wskazówka**: `ols('y ~ x + I(x**k)', data_frame)` z `statsmodels.formula.api` lub `PolynomialFeatures` z `sklearn.preprocessing`

In [None]:
# #generujemy dane
# n = 50
# x = stats.uniform.rvs(size=n, loc=-3, scale=6)
# y = x - 2 * (x ** 2) + 0.5 * (x ** 3) + stats.norm.rvs(size=n, loc=2, scale=2)

In [None]:
# #rysujemy dopasowanie dla modeli wielomianowych o rzędzie wielomianu równym: 1, 2, 3 i 20
# import operator

# colors = ['red', 'green', 'magenta', 'orange']
# degrees = [1, 2, 3, 20]

# plt.scatter(x, y)
# sort_axis = operator.itemgetter(0)

# for i, deg in enumerate(degrees):
#     if deg == 1:
#         X = add_constant(x, prepend=True, has_constant='skip')
#     else:
#         polynomial_features = PolynomialFeatures(degree=deg)
#         X = polynomial_features.fit_transform(x.reshape(-1, 1))
#     model = OLS(endog=y, exog=X).fit()
    
#     sorted_zip = sorted(zip(x, model.fittedvalues), key=sort_axis)
#     x_range, y_poly_pred = zip(*sorted_zip)
#     plt.plot(x_range, y_poly_pred, color=colors[i], label="degree={}".format(deg))

# plt.legend()

# Zadanie 1b

Dla wygenerowanej pary punktów dopasuj model regresji:

a) wielomianowej stopnia 20 z regularyzacją grzbietową (Ridge) z parametrem $\alpha = 0.1$,

b) wielomianowej stopnia 20 z regularyzacją Lasso z parametrem $\alpha = 0.1$.

Powtórz podpunkt a) i b) dla różnych wartości parametru $\alpha$, np. $\alpha \in \{0.001, 0.005, 0.01, 0.5, 1, 5\}$.

In [None]:
# X = x.reshape(-1,1)
# polynomial_features = PolynomialFeatures(degree=20,include_bias = False)
# X20 = polynomial_features.fit_transform(X)

In [None]:
# X20.shape

In [None]:
# X20_scale = StandardScaler().fit_transform(X20)


In [None]:
# ridge01 = Ridge(alpha = 0.1).fit(X=X20_scale,y=y)

In [None]:
# lm = LinearRegression().fit(X=X20_scale,y=y)

In [None]:
# print(ridge01.coef_)
# print(lm.coef_)

In [None]:
# print(ridge01.intercept_)
# print(lm.intercept_)

In [None]:
# ridge01_fittedvalues = ridge01.predict(X20_scale)

In [None]:
# #wykres dopasowania dla regresji wielomianowej bez kary ridge, a także z tą karą
# plt.scatter(x, y)
# sort_axis = operator.itemgetter(0)


# polynomial_features = PolynomialFeatures(degree=20)
# X20 = polynomial_features.fit_transform(x.reshape(-1, 1))
# model = OLS(endog=y, exog=X20).fit()

# sorted_zip = sorted(zip(x, model.fittedvalues), key=sort_axis)
# x_range, y_poly_pred = zip(*sorted_zip)
# plt.plot(x_range, y_poly_pred, color=colors[1], label="degree={}".format(deg))

# sorted_zip = sorted(zip(x, ridge01_fittedvalues), key=sort_axis)
# x_range, y_poly_pred = zip(*sorted_zip)
# plt.plot(x_range, y_poly_pred, color=colors[2], label="degree={} + ridge0.1".format(deg))


# plt.legend()

In [None]:
# ridge01_pipeline = make_pipeline(
#     PolynomialFeatures(degree=20,include_bias = False),
#     StandardScaler(),
#     Ridge(alpha=0.1)
# )
# ridge01_pipeline = ridge01_pipeline.fit(X=X, y=y)

In [None]:
# ridge01_pipeline["ridge"].coef_

In [None]:
# ridge01_fittedvalues = ridge01.predict(X20_scale)
# print(ridge01_fittedvalues)

In [None]:
# ridge01_pipeline.predict(X)

# Zadanie 2

Narysuj wykres funkcji 
$$y = cos(x) + \epsilon$$
dla $x \in [\frac{\pi}{2}, \frac{3}{2}\pi]$ oraz $\epsilon \in N(0, 0.15)$.

Dopasuj model regresji:
- liniowej
- wielomianej stopnia 2, 10 i 20,
- wielomianej stopnia 20 z regularyzacja Ridge z parametrem $\alpha\in\{0.001, 0.01, 0.1, 1, 2\}$.
- wielomianej stopnia 20 z regularyzacją Lasso z parametrem $\alpha\in\{0.001, 0.01, 0.1, 1, 2\}$.

**Wskazówka**: Napisz funkcję, która dla dowolnego zbioru dopasuje odpowiedni model.

In [None]:
# #generacja danych
# x = np.array([i*np.pi/180 for i in range(90,270,1)])
# X = pd.DataFrame(x)
# y = np.cos(x)+np.random.normal(0,0.15,len(x))
# plt.plot(x,y,'.',color = 'black')

In [None]:
# #funkcja dopasowywująca modele, które nas interesują
# def fit_model(X,y,model,power):
#   new_model = make_pipeline(
#       PolynomialFeatures(degree = power,include_bias = False),
#       StandardScaler(),
#       model
#   )
#   new_model.fit(X,y)
#   return(new_model.predict(X))

In [None]:
# #tworzymy modele
# models = {}
# models['linear_regression'] = {'power': 1, 'model': LinearRegression()}
# models['polynomial_regression2'] = {'power': 2, 'model': LinearRegression()}
# models['polynomial_regression10'] = {'power': 10, 'model': LinearRegression()}
# models['polynomial_regression20'] = {'power': 20, 'model': LinearRegression()}
# models['ridge_regression_0.1'] = {'power': 20, 'model': Ridge(alpha = 0.1)}
# models['lasso_regression_0.1'] = {'power': 20, 'model': Lasso(alpha = 0.1)}

In [None]:
# #definiujemy miarę RSS (czyli właściwie MSE razy liczba obserwacji)
# def rss_fun(y,y_pred):
#   return(sum((y-y_pred)**2))

In [None]:
# #liczymy RSS dla każdego modelu na danych na których uczyliśmy model
# y_pred_dict = {}
# rss = {}
# for key,values in zip(models,models.values()):
#   y_pred = fit_model(X,y,values['model'],values['power'])
#   y_pred_dict[key] = y_pred
#   rss[key] = rss_fun(y_pred,y)

In [None]:
# pd.DataFrame(list(rss.items()),columns = ['Model','RSS'])

In [None]:
# rcParams['figure.figsize'] = 12, 10

# labels = ['true data'] + ['linear_regression', 'polynomial_regression_2', 
#                           'polynomial_regression_10', 'polynomial_regression_20', 
#                           'ridge_regression_0.1', 'lasso_regression_0.01']

# plt.plot(x, y, '.', color = 'black', label="data")
# for y_pred in y_pred_dict.values():
#     plt.plot(x, y_pred)
# plt.legend(labels)

# #polynomial 20 przeuczony, ridge z alpha = 0.1 ok, lasso z alpha = 0.1 niedouczony