# Regularyzacja w modelu regresji - zbiór `longley`

In [None]:
import numpy as np
import pandas as pd

import statsmodels.api as sm
import statsmodels.formula.api as smf
from patsy import dmatrices

import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 10

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import GridSearchCV, cross_val_score, train_test_split
import sklearn.metrics as metrics

from scipy import stats

import warnings
warnings.filterwarnings('ignore')

# Zadanie - `longley`

Zbiór danych `longley` zawiera różne zmienne makroekonomiczne w USA, o których wiadomo, że są wysoce współliniowe.

`GNPDEFL` GNP implicit price deflator (1954=100)

`GNP` Gross National Produc

`UNEMP` number of unemployed.

`ARMED` number of people in the armed forces.

`POP` ‘noninstitutionalized’ population ≥ 14 years of age.

`YEAR` the year (time).

`TOTEMP` number of people employed.

1. Podziel zbiór na częśc treningową i testową w stosunku 7:3


2. Dopasuj na danych treningowych model regresji liniowej, w którym zmienną zależną jest zmienna `TOTEMP` a pozostałe cechy zmiennymi niezależnymi. Wyznacz jakość predykcji modelu obliczając na zbiorze testowym:
   - błąd średniokwadratowy, 
   - medianę błędu bezwzględnego. 
   
    
3. Dopasuj na danych treningowych model regresji grzbietowej:
   - znajdź optymalną wartość parametru $\alpha$ (GridSearchCV)
   - sporządź wykres wartości współczynników regresji względem parametru $\alpha$.
   - wyznacz jakość predykcji modelu obliczając na zbiorze testowym:
      - błąd średniokwadratowy, 
      - medianę błędu bezwzględnego.    


4. Dopasuj na danych treningowych model regresji Lasso:
   - znajdź optymalną wartość parametru $\alpha$ (GridSearchCV)
   - sporządź wykres wartości współczynników regresji względem parametru $\alpha$.
   - wyznacz jakość predykcji modelu obliczając na zbiorze testowym:
      - błąd średniokwadratowy, 
      - medianę błędu bezwzględnego. 
   
5. Dopasuj na danych treningowych model regresji wielomianowej z regularyzacją grzbietową:
   - znajdź optymalny stopień wielomianu i optymalną wartość parametru $\alpha$,
   - wyznacz jakość predykcji modelu obliczając na zbiorze testowym:
      - błąd średniokwadratowy, 
      - medianę błędu bezwzględnego. 

6. Dopasuj na danych treningowych model regresji wielomianowej z regularyzacją Lasso:
   - znajdź optymalny stopień wielomianu i optymalną wartość parametru $\alpha$,
   - wyznacz jakość predykcji modelu obliczając na zbiorze testowym:
      - błąd średniokwadratowy, 
      - medianę błędu bezwzględnego.

Rozwiązując powyższe zadanie staraj się automatyzować swoją analizę, tj. napisz funkcje:
- `pred_scores`, która zwraca słownik/ramkę danych miar predykcji dla zbudowanego modelu;
- `grid_search_alpha`, która znajduje optymalną wartość $\alpha$ dla modelu regresji z regularyzacją Ridge lub Lasso;
- `plot_coef_vs_alpha`, która służy do tworzenia wykresu zmian wartości współczynników w zależności od wzrostu parametru $\alpha$;
- `grid_search_power_and_alpha`, która znajduje optymalny stopień wielomianu oraz parametr $\alpha$ dla regresji wielomianowej z regularyzacją Ridge lub Lasso.

Przygotuj tak analizę aby na koniec przedstawić wszystkie wyniki w jednej tabeli.

In [None]:
longley = sm.datasets.longley.load_pandas()
longley.data.head()

In [None]:
#zmienna niezależne i zależna 
X, y = longley.data.iloc[:, longley.data.columns != 'TOTEMP'], longley.data['TOTEMP']

In [None]:
#funkcja licząca miary dla modelu
def pred_scores(model, X, y):
    
    mse = metrics.mean_squared_error(y_true=y, y_pred=model.predict(X))
    mae = metrics.median_absolute_error(y_true=y, y_pred=model.predict(X))

    results = {}
    results['mse'] = mse
    results['mae'] = mae
    
    return results

In [None]:
#funkcja mająca znaleźć najlepszą alphę w regresji ridge czy lasso za pomocą kroswalidacji (zwraca najlepszą alphę)
def grid_search_alpha(model,X,y,params,scoring,cv = 10):
    
    grid = GridSearchCV(make_pipeline(StandardScaler(), model),
                        params, scoring = scoring, cv = cv)
    
    grid.fit(X,y)
    return grid.best_params_

In [None]:
models = {}

models['linear'] = pred_scores()

models['ridge_%.3g' % best_alpha_ridge['ridge__alpha']] = pred_scores()


models['lasso_%.3g' % best_alpha_lasso['lasso__alpha']] = pred_scores()

In [None]:
pd.DataFrame(models)

In [None]:
#funkcja do stworzenia wykresu zmiany wartości współczynnika beta w zależności od zmiany alpha
def plot_coef_vs_alpha(model_name, min_alpha, max_alpha, poly_degree=1):
    
    alpha_vec =  np.linspace(min_alpha, max_alpha, 100)
    
    if (model_name == 'lasso'):
        model = Lasso(max_iter=1e5)
    
    elif(model_name == 'ridge'):
        model = Ridge()

    coefs = []
    for a in alpha_vec:
        
        model.alpha = a
        model_reg = make_pipeline(PolynomialFeatures(poly_degree), StandardScaler(), model)
        
        model_reg.fit(X_train, y_train)
        coefs.append(model_reg.named_steps[model_name].coef_[1:])

    plt.plot(alpha_vec, coefs)
    plt.plot([np.min(alpha_vec), np.max(alpha_vec)], [0, 0], '-.', color = 'black')
    plt.xlabel('alpha')
    plt.ylabel('coefficients')
    plt.legend(X_train.columns)
    plt.show()

In [None]:
#funkcja do znajdywania najlepszego zestawu parametrów degree i alpha
def grid_search_power_and_alpha(model,X,y,params,scoring,cv = 10):
    
    grid = GridSearchCV(make_pipeline(PolynomialFeatures(), StandardScaler(), model),
                        params, scoring = scoring, cv = cv)
    
    grid.fit(X,y)
    return grid.best_params_

In [None]:
models2 = {}

In [None]:
models2['ridge_%.3g_%d' % (best_params_ridge['ridge__alpha'],
                       best_params_ridge['polynomialfeatures__degree'])] = pred_scores()

In [None]:
models2['lasso_%.3g_%d' % (best_params_lasso['lasso__alpha'],
                       best_params_lasso['polynomialfeatures__degree'])] = pred_scores()

In [None]:
#wyniki końcowe
results = pd.concat([pd.DataFrame(models),pd.DataFrame(models2)],axis =1,sort = False)
results