# Regularyzacja w modelu regresji - zbiór `Hitter`

In [None]:
import numpy as np
import pandas as pd

import statsmodels.api as sm
import statsmodels.formula.api as smf
from patsy import dmatrices

import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 10

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge, RidgeCV
from sklearn.linear_model import Lasso, LassoCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import GridSearchCV, cross_val_score , train_test_split
import sklearn.metrics as metrics

from scipy import stats

# Zadanie - `Hitter`

Zbiór `Hitter` (pakiet `ISLR`) zawiera dane z **Major League Baseball** z sezonu 1986 i 1987, zawierają 322 obserwacje na temat głównych zawodników scharakteryzowanym na podstawie następujących zmiennych: 

``AtBat``
   Number of times at bat in 1986

``Hits``
   Number of hits in 1986

``HmRun``
   Number of home runs in 1986

``Runs``
   Number of runs in 1986

``RBI``
   Number of runs batted in in 1986

``Walks``
   Number of walks in 1986

``Years``
   Number of years in the major leagues

``CAtBat``
   Number of times at bat during his career

``CHits``
   Number of hits during his career

``CHmRun``
   Number of home runs during his career

``CRuns``
   Number of runs during his career

``CRBI``
   Number of runs batted in during his career

``CWalks``
   Number of walks during his career

``League``
   A factor with levels ``A`` and ``N`` indicating player's league at
   the end of 1986

``Division``
   A factor with levels ``E`` and ``W`` indicating player's division at
   the end of 1986

``PutOuts``
   Number of put outs in 1986

``Assists``
   Number of assists in 1986

``Errors``
   Number of errors in 1986

``Salary``
   1987 annual salary on opening day in thousands of dollars

``NewLeague``
   A factor with levels ``A`` and ``N`` indicating player's league at
   the beginning of 1987

1. Podziel zbiór losowo na część treningową i testową w stosunku 7:3

2. Dopasuj model regresji liniowej na danych treningowych, w którym zmienną zależną jest zmienna `Salary` a pozostałe cechy zmiennymi niezależnymi.
Przy użyciu zbioru testowego określ własności predykcyjne modelu korzystając z  następujących miar:
   - błędu średniokwadratowego, 
   - mediany błędu bezwzględnego.
    
    
3. Dopasuj na zbiorze treningowym model regresji grzbietowej:

   a) dla dowolnie wybranego parametru $\alpha$ określ, przy użyciu zbioru testowego, własności predykcyjne modelu korzystając z następujących miar:
   - błędu średniokwadratowego, 
   - mediany błędu bezwzględnego.
   
   b) Korzystając z kroswalidacji na zb. treningowym znajdź optymalną wartość parametru $\alpha$ (`GridSearchCV`)
   
   c) sporządź wykres wartości współczynników regresji względem parametru $\alpha$.

   d) dla optymalnego parametru $\alpha$ określ, przy użyciu zbioru testowego,własności predykcyjne modelu korzystając z następujących miar:
   - błędu średniokwadratowego, 
   - mediany błędu bezwzględnego.
   

4. Dopasuj na zbiorze treningowym model regresji Lasso:

   a) dla dowolnie wybranego parametru $\alpha$ określ, przy użyciu zbioru testowego, własności predykcyjne modelu korzystając z następujących miar:
   - błędu średniokwadratowego, 
   - mediany błędu bezwzględnego.
   
   b) Korzystając z kroswalidacji na zb. treningowym znajdź optymalną wartość parametru $\alpha$ (`GridSearchCV`)
   
   c) sporządź wykres wartości współczynników regresji względem parametru $\alpha$.

   d) dla optymalnego parametru $\alpha$ określ, przy użyciu zbioru testowego,własności predykcyjne modelu korzystając z następujących miar:
   - błędu średniokwadratowego, 
   - mediany błędu bezwzględnego.

In [None]:
# hitters = sm.datasets.get_rdataset(dataname="Hitters", package="ISLR", cache=True)
# # print(hitters.__doc__)

In [None]:
# hitters.data.head()

In [None]:
# hitters.data.info()

In [None]:
# hitters = hitters.data.dropna()
# hitters = hitters.drop(['League', 'Division', 'NewLeague'], axis = 1)

In [None]:
# ## Podział zbioru na zmienne niezależne i zmienną zależną
# X, y = hitters.iloc[:, hitters.columns != 'Salary'], hitters['Salary']

In [None]:
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123) #podział na część treningową i testową

In [None]:
# #zwykła regresja liniowa na zb. treningowym
# model_linear_regression = LinearRegression()
# model_linear_regression.fit(X_train, y_train)

In [None]:
# mse = metrics.mean_squared_error(y_true=y_test, y_pred=model_linear_regression.predict(X_test))
# mae = metrics.median_absolute_error(y_true=y_test, y_pred=model_linear_regression.predict(X_test))

# results_linear_regression = {}
# results_linear_regression['mse'] = mse
# results_linear_regression['mae'] = mae

In [None]:
# results_linear_regression

In [None]:
# # MSE o wiele większe od MAE może być to spowodowane bardzo niesymetrycznym rozkładem y
# plt.hist(y)

In [None]:
# # Regresja z regularyzacja Ridge
# model_ridge_regression = make_pipeline(
#     StandardScaler(), 
#     Ridge(alpha=1)
# )

In [None]:
# model_ridge_regression.fit(X_train,y_train) #skalujemy zmienne i dopasowujemy model

In [None]:
# #rozważamy miary MSE, MAE dla konkretnego modelu
# def pred_model(model, X, y):
#     mse = metrics.mean_squared_error(y_true=y, y_pred=model.predict(X))
#     mae = metrics.median_absolute_error(y_true=y, y_pred=model.predict(X))

#     results = {}
#     results['mse'] = mse
#     results['mae'] = mae
#     return results

In [None]:
# #lepsza predykcja niż w przypadku zwykłej regresji liniowej

# results_ridge_alpha_1 = pred_model(model_ridge_regression, X_test, y_test)
# print(results_ridge_alpha_1)

# `Gridsearch`

In [None]:
# #wcześniej patrzyliśmy jak się to zachowuje dla ustalonej alphy
# estimator_ridge = make_pipeline(
#     StandardScaler(), 
#     Ridge()
# )

# #grid bierze estymator i wyszukuje jak najlepszy jego parametr (w przypadku ridge czy lasso chodzi o parametr alpha)
# grid = GridSearchCV(
#     estimator=estimator_ridge, 
#     param_grid = {'ridge__alpha': np.linspace(0.01, 15, 100)},
#     scoring='neg_mean_squared_error',
#     cv=10
# )
# #dopasowujemy model ridge dla alpha optymalnego dla danych na których uczymy model
# grid.fit(X_train, y_train)

In [None]:
# grid.best_params_ #najlepsza alpha

In [None]:
# -grid.best_score_ #MSE na zb. treningowym

In [None]:
# grid_best = grid.best_estimator_

# # ridge = make_pipeline(
# #     StandardScaler(), 
# #     Ridge(alpha=grid.best_params_)
# # ) - Ridge z najlepszą alphą

In [None]:
# print(grid_best['ridge'].coef_)
# grid_best['ridge'].intercept_ #współczynniki

In [None]:
# results_ridge_alpha_opt = pred_model(grid.best_estimator_, X_test, y_test) # jeszcze mniejsze.
# print(results_ridge_alpha_opt)

In [None]:
# #2c
# #patrzymy jak zmieniają się współczynniki beta ridge wraz ze wzrostem alphy 
# plt.figure(figsize=(20, 10))

# alpha_vec =  np.linspace(0, 100, 100)

# coefs = []
# for a in alpha_vec:
#     model_ridge_regression = make_pipeline(
#         StandardScaler(),
#         Ridge(alpha = a)
#     )
#     model_ridge_regression.fit(X_train, y_train)
#     coefs.append(model_ridge_regression.named_steps['ridge'].coef_)


# plt.plot(alpha_vec, coefs)
# plt.plot([np.min(alpha_vec), np.max(alpha_vec)], [0, 0], '-.', color = 'black')
# plt.title('Wykres wielkości współczynników regresji liniowej z regularyzacją grzbietową w zależności od siły regularyzacji (parametr alpha)')
# plt.xlabel('alpha')
# plt.ylabel('coefficients')
# plt.legend(X.columns)
# plt.show()

## Regresja wielomianowa z regularyzacją ridge

In [None]:
# #teraz łączymy regresję wielomianową z regularyzacją ridge
# poly_ridge_estimator = make_pipeline(
#     PolynomialFeatures(include_bias = False),
#     StandardScaler(),
#     Ridge()
# )
# poly_ridge_estimator

In [None]:
# #bierzemy siatkę potęg wielomianów i siatkę alph
# grid2 = GridSearchCV(
#     estimator=poly_ridge_estimator,
#     param_grid={
#         'polynomialfeatures__degree': [1, 2, 3],
#         'ridge__alpha': np.linspace(5, 15, 20)
#     },
#     scoring='neg_mean_squared_error',
#     cv=10
# )

# grid2.fit(X_train, y_train)

In [None]:
# grid2.best_params_ #optymalne parametry

In [None]:
# results_poly_ridge_alpha_opt = pred_model(grid2.best_estimator_, X_test, y_test) #miary dają większy nieco wynik na MSE, niż metode bez dodania PolynomialFeatures, ale zdecydowanie mniejszy na MAE
# print(results_poly_ridge_alpha_opt)

## Lasso

## Regresja wielomianowa z regularyzacją lasso

In [None]:
# #wyniki końcowe
# MSES =np.array([[results_linear_regression["mse"],
#        results_ridge_alpha_1["mse"] ,results_ridge_alpha_opt["mse"],results_poly_ridge_alpha_opt["mse"],
#        results_lasso_alpha_1["mse"] ,results_lasso_alpha_opt["mse"],results_poly_lasso_alpha_opt["mse"]]])
# MAES =np.array([[results_linear_regression["mae"],
#        results_ridge_alpha_1["mae"] ,results_ridge_alpha_opt["mae"],results_poly_ridge_alpha_opt["mae"],
#        results_lasso_alpha_1["mae"] ,results_lasso_alpha_opt["mae"],results_poly_lasso_alpha_opt["mae"]]])


In [None]:
# pd.DataFrame(np.concatenate((MSES, MAES),axis = 0),columns=['linear', 'ridge_alpha=1', 'ridge_alpha_opt','ridge_poly_alpha_opt',
#                                                             'lasso_alpha=1', 'lasso_alpha_opt','lasso_poly_alpha_opt'],
#              index = ["MSE","MAE"])