# Desafio 1: Efeitos da Regularização no Treinamento

## Objetivos:

O objetivo desse desafio é avaliar as diferenças entre os modelos treinados sem regularização e os modelos treinados com regularização do tipo L1 e do tipo L2.


## Formulação (revisão):

A regularização atua como um termo adicionado na **minimização da função de erro**. 

As fórmulas estão mostradas abaixo:

### (i) Função de erro $Loss$ s/ Regularização

$${
    Loss = \frac{ \sum\limits_{i=1}^n {\biggl(y_i - \sum\limits_{j=1}^p w_j x_{i,j}  \biggr)}^2}{ 2  N }
}$$

### (ii) Função de erro $Loss$ c/ Regularização L1

$${
    Loss = \frac{ 
        \sum\limits_{i=1}^n {\biggl(y_i - \sum\limits_{j=1}^p w_j x_{i,j}  \biggr)}^2 + 
        \alpha \sum\limits_{j=1}^p \lvert w_j \rvert
     }{ 2  N }
}$$

### (iii) Função de erro $Loss$ Sem Regularização

$${
    Loss = \frac{ 
        \sum\limits_{i=1}^n {\biggl(y_i - \sum\limits_{j=1}^p w_j x_{i,j}  \biggr)}^2 + 
        \alpha \sum\limits_{j=1}^p w_j^2
     }{ 2  N }
}$$

___

# Imports

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import numpy as np
import os
import pandas as pd

In [None]:
from sklearn.cross_validation import KFold
from sklearn.linear_model import Lasso, LinearRegression, Ridge
from sklearn.metrics.regression import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV, ParameterGrid
from sklearn.preprocessing import StandardScaler, PolynomialFeatures

# Dataset:

## Carregando os dados

In [None]:
from sklearn.datasets import load_boston
dataset = load_boston()

### Sobre o Dataset

In [None]:
print(dataset["DESCR"])

In [None]:
dataset.keys()

### Separação das Features e Variável Dependente

In [None]:
x = pd.DataFrame(
    columns=dataset["feature_names"],
    data=dataset["data"]
)

In [None]:
y = dataset["target"]

In [None]:
x.shape

In [None]:
x.head()

In [None]:
y.shape

In [None]:
y[:5]

## Separação de Treino e Teste

In [None]:
# splitting 
train_index, test_index = train_test_split(
    x.index, 
    test_size=.3, 
    random_state=42
)

x_train = x.loc[train_index, :]
x_test = x.loc[test_index, :]
y_train = y[train_index]
y_test = y[test_index]

In [None]:
x_train.shape

In [None]:
x_test.shape

## Normalizando Features com Z-Score

Passo importante quando se treina modelos lineares, por eliminar importâncias artificialmente grandes para features contendo valores muito grandes.

In [None]:
zscore = StandardScaler().fit(x_train)
x_train = zscore.transform(x_train)
x_test = zscore.transform(x_test)

# Problemas

## A) Treinamento e Avaliação de Modelos com e sem Regularização

A regularização tem como principal objetivo reduzir a complexidade do modelo criado ao limitar o crescimento dos parâmetros durante o treinamento. Com isso, é interessante notar que modelos com regularização tendem a ter menor diferença entre os desempenhos das métricas de avaliação sobre as massas de treino e de teste, indicando uma melhor generalização do modelo.

Nessa seção, três tipos de modelo devem ser treinados: um **sem regularização**, um com **regularização L1** e um com **regularização L2**. O desempenho dos três tipos de modelo será comparado em termos de ${MSE}$ (_Mean Squared Error_) e da medida ${R^2}$.

### Modelo s/ Regularização

#### Treinamento

In [None]:
""" Complete os espaços com ? """
model = ?()
model.fit(X=?, y=?)

#### Avaliação

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de treino
mse_tr = mean_squared_error(y_true=?, y_pred=?)
r2_tr = r2_score(y_true=?, y_pred=?)

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de teste
mse_te = mean_squared_error(y_true=?, y_pred=?)
r2_te = r2_score(y_true=?, y_pred=?)

In [None]:
# Tabela com os resultados
pd.DataFrame(
    index=["train", "test"],
    columns=["MSE", "R^2"],
    data=[
        [mse_tr, r2_tr],
        [mse_te, r2_te]
    ]
)

### Modelo c/ Regularização L1

#### Treinamento

In [None]:
""" Complete os espaços com ? """
model = ?(alpha=1, max_iter=100, random_state=42)
model.fit(X=?, y=?)

#### Avaliação

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de treino
mse_tr = mean_squared_error(y_true=?, y_pred=?)
r2_tr = r2_score(y_true=?, y_pred=?)

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de teste
mse_te = mean_squared_error(y_true=?, y_pred=?)
r2_te = r2_score(y_true=?, y_pred=?)

In [None]:
# Tabela com os resultados
pd.DataFrame(
    index=["train", "test"],
    columns=["MSE", "R^2"],
    data=[
        [mse_tr, r2_tr],
        [mse_te, r2_te]
    ]
)

### Modelo c/ Regularização L2

#### Treinamento

In [None]:
""" Complete os espaços com ? """
model = ?(alpha=1, max_iter=100, random_state=42)
model.fit(X=?, y=?)

#### Avaliação

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de treino
mse_tr = mean_squared_error(y_true=?, y_pred=?)
r2_tr = r2_score(y_true=?, y_pred=?)

In [None]:
""" Complete os espaços com ? """
# avaliação do modelo sobre a massa de teste
mse_te = mean_squared_error(y_true=?, y_pred=?)
r2_te = r2_score(y_true=?, y_pred=?)

In [None]:
# Tabela com os resultados
pd.DataFrame(
    index=["train", "test"],
    columns=["MSE", "R^2"],
    data=[
        [mse_tr, r2_tr],
        [mse_te, r2_te]
    ]
)

## B) Efeito do parâmetro ${alpha}$ da regularização sobre o desempenho dos modelos

O peso ${alpha}$ dado à regularização influencia o quanto o treinamento dos parâmetros é afetado. ${alpha}$ é sempre um número não negativo (i.e. ${\geq{0}}$); o caso especial em que ${alpha=0}$ é exatamente a Regressão Linear **sem regularização**.

Nessa seção, serão plotados alguns gráficos para avaliar como o ${alpha}$ influencia nas métricas da avaliação de um modelo. A comparação das métricas de avaliação das curvas de treino e de teste será feita variando ${alpha}$ e medindo o ${MSE}$ e o ${R^2}$.

### Função de Plot

In [None]:
def plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list):
    # plotting graphics
    fig, (ax_mse, ax_r2) = plt.subplots(2, sharex=True, figsize=(15, 8))

    # MSE
    mse_df = pd.DataFrame(
        index=alpha_list,
        columns=["train", "test"],
        data=list(zip(mse_tr_list, mse_te_list))
    )
    mse_df.plot(title="Comparação de MSE: Treino Vs Teste", ax=ax_mse)
    ax_mse.set(xlabel="alpha", ylabel="mean squared error")

    # R2
    r2_df = pd.DataFrame(
        index=alpha_list,
        columns=["train", "test"],
        data=list(zip(r2_tr_list, r2_te_list))
    )
    r2_df.plot(title="Comparação de R^2: Treino Vs Teste", ax=ax_r2)
    ax_r2.set(xlabel="alpha", ylabel="r squared")

### Regularização L1

In [None]:
# Definição dos valores de alpha
alpha_list = np.linspace(0.001, 12, 100)

In [None]:
# initializing lists
mse_tr_list = []
mse_te_list = []
r2_tr_list = []
r2_te_list = []

In [None]:
""" Complete os espaços com ? """
for alpha in alpha_list:
    # create / train model
    model = ?(alpha=alpha, max_iter=1000, random_state=42)
    model.fit(x_train, y_train)
    
    # Train Evaluation Metrics
    y_true = ?
    y_pred = ?
    mse_tr = ?(y_true=y_true, y_pred=y_pred)
    r2_tr = ?(y_true=y_true, y_pred=y_pred)
    
    # Test Evaluation Metrics
    y_true = ?
    y_pred = ?
    mse_te = ?(y_true=y_true, y_pred=y_pred)
    r2_te = ?(y_true=y_true, y_pred=y_pred)
    
    # append all eval metrics
    mse_tr_list.append(mse_tr)
    mse_te_list.append(mse_te)
    r2_tr_list.append(r2_tr)
    r2_te_list.append(r2_te)

In [None]:
plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list)

### Regularização L2

In [None]:
# Definição dos valores de alpha
alpha_list = np.linspace(0.001, 10000, 100)

In [None]:
# initializing lists
mse_tr_list = []
mse_te_list = []
r2_tr_list = []
r2_te_list = []

In [None]:
""" Complete os espaços com ? """
for alpha in alpha_list:
    # create / train model
    model = ?(alpha=alpha, max_iter=1000, random_state=42)
    model.fit(x_train, y_train)
    
    # Train Evaluation Metrics
    y_true = ?
    y_pred = ?
    mse_tr = ?(y_true=y_true, y_pred=y_pred)
    r2_tr = ?(y_true=y_true, y_pred=y_pred)
    
    # Test Evaluation Metrics
    y_true = ?
    y_pred = ?
    mse_te = ?(y_true=y_true, y_pred=y_pred)
    r2_te = ?(y_true=y_true, y_pred=y_pred)
    
    # append all eval metrics
    mse_tr_list.append(mse_tr)
    mse_te_list.append(mse_te)
    r2_tr_list.append(r2_tr)
    r2_te_list.append(r2_te)

In [None]:
plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list)

## C)  Avaliação dos Parâmetros

A principal característica da regularização é a diminuição gradual da magnitude dos pesos a cada iteração. Essa diminuição controla o tamanho máximo dos parâmetros internos do modelo, impedindo que os mesmos definam espaços de solução muito irregulares, o que pode levar a soluções não genéricas.

Nessa seção serão comparados os parâmetros treinados com **regularização L1**. Os valores de ${alpha}$ utilizados serão definidos a partir do estudo realizado no item B.

### Função Auxiliar

A função abaixo treina um dado modelo linear por `max_iter` épocas, armazenando o histórico de cada parâmetro.

In [None]:
def train_model(model_class, X, y, max_iter, **kwargs):
    
    def get_params(model, X, y, iter):        
        model.fit(X, y)
        return pd.DataFrame(
            index=[iter],
            columns=X.columns.tolist() + ["intercept"],
            data=[model.coef_.tolist() + [model.intercept_]]
        )
    
    model = model_class(warm_start=True, max_iter=1, **kwargs)
    params = get_params(model, X, y, 0)
    for iter in range(1, max_iter):        
        params = params.append(get_params(model, X, y, iter))
    return params

### Valor de ${alpha}$ próximo a zero

In [None]:
""" Escreva a solução aqui """

### Valor de ${alpha}$ mediano

In [None]:
""" Escreva a solução aqui """

### Valor de ${alpha}$ alto

In [None]:
""" Escreva a solução aqui """