# Parte 1: Efeitos da Regularização no Treinamento

## Objetivos:

O objetivo desse desafio é avaliar as diferenças entre os modelos treinados sem regularização e os modelos treinados com regularização do tipo L1 e do tipo L2.


## conceitos:

A regularização é uma família de técnicas utilizadas para limitar o range de valores que os parâmetros do modelo podem atingir durante o treinamento. É utilizada em problemas de otimização para buscar soluções dentro de uma limitação específica imposta ao modelo.

A regularização do tipo L1 força que, a cada iteração de treinamento, o valor de todos os parâmetros decaiam **linearmente**. A regressão do tipo L2, por outro lado, força o deacimento **quadrático** de todos os parâmetros. A figura abaixo mostra as funções aplicadas aos parâmetros:

![Funções das Regularizações L1 & L2](images/lasso_and_ridge.png)

O objetivo de ambas as regularizações é buscar soluções onde a **magnitude dos parâmetros seja a menor possível**.


___

# Imports

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import numpy as np
import os
import pandas as pd

In [None]:
from sklearn.linear_model import Lasso, LinearRegression, Ridge
from sklearn.metrics.regression import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler

# Dataset:

## Sobre o Case

### Case baseado no dataset do Kaggle: "California Housing Prices"

Esse desafio é baseado em um dataset aberto do Kaggle ([https://www.kaggle.com](https://www.kaggle.com)) de 2018, de onde é possível estimar o preço de um imóvel pertencente a uma dada região na Califórnia. 

O dataset original foi extraído do repositório StatLib, que não está mais disponível. Os dados que o compôem foram retirados do Censo realizado na Califórnia em 1990 e modificado para servir como base de treinamento.


Link para o dataset no Kaggle: [https://www.kaggle.com/harrywang/housing/data](https://www.kaggle.com/harrywang/housing/data)


### Descrição dos Dados Originais:

#### Tamanho do Dataset:

* `20.640` data points

#### Variável dependente:

* `median_house_value`:  (float) variável dependente com o valor da mediana do preço de imóvel na região

#### Features: 

* `longitude`/`latitude`: (floats) posição global da região
* `housing_median_age`: (float) mediana da idade (em anos) das casas da região
* `total_rooms`: (float) total de aposentos da região
* `total_bedrooms`: (float) total de quartos da região
* `population`: (float) população total da região
* `households`: (float) quantidade total de imóveis da região
* `median_income`: (float) mediana do salário (por hora) de uma pessoa na região
* `ocean_proximity`: (string) categorias relativas à distância do oceano


### Modificação dos dados para o Desafio:

Para tornar o desafio mais fácil de avaliar, a massa de dados original foi dividida em duas massas, uma para treino e outra para teste, ambas contendo pouco mais de `10.000` elementos. 

Por motivos didáticos, alguns elementos da massa de treino foram removidos e, sobre os elementos restantes, foi aplicada uma Feature Engineering. Não é necesário se preocupar com o que é uma Feature Engineering agora, será o tema da Aula 20. 

## Carregando os dados


### Train Dataset 

In [None]:
dataset = pd.read_csv("data/feature_engineered_california_housing_train.csv", sep="\t", index_col=0)
x_train = dataset.drop(["median_house_value"], axis=1)
y_train = dataset[["median_house_value"]]

In [None]:
print(f"shape: {x_train.shape}")
x_train.head()

In [None]:
print(f"shape: {y_train.shape}")
y_train.head()

### Test Dataset 

In [None]:
dataset = pd.read_csv("data/feature_engineered_california_housing_test.csv", sep="\t", index_col=0)
x_test = dataset.drop(["median_house_value"], axis=1)
y_test = dataset[["median_house_value"]]

In [None]:
print(f"shape: {x_test.shape}")
x_test.head()

In [None]:
print(f"shape: {y_test.shape}")
y_test.head()

## Normalizando Features com Z-Score

Passo importante quando se treina modelos lineares, por eliminar importâncias artificialmente grandes para features contendo valores muito grandes.

In [None]:
columns = x_train.columns

In [None]:
zscore = StandardScaler().fit(x_train.loc[:, columns])

In [None]:
x_train.loc[:, columns] = zscore.transform(x_train.loc[:, columns])
x_test.loc[:, columns] = zscore.transform(x_test.loc[:, columns])

# Problemas

## A) Treinamento e Avaliação de Modelos com e sem Regularização

A regularização tem como principal objetivo reduzir a complexidade do modelo criado ao limitar o crescimento dos parâmetros durante o treinamento. Com isso, é interessante notar que modelos com regularização tendem a ter menor diferença entre os desempenhos das métricas de avaliação sobre as massas de treino e de teste, indicando uma melhor generalização do modelo.

Nessa seção, três tipos de modelo devem ser treinados: um **sem regularização**, um com **regularização L1** e um com **regularização L2**. O desempenho dos três tipos de modelo deverá ser comparado em termos de ${MSE}$ (_Mean Squared Error_) e da medida ${R^2}$.

### Modelo s/ Regularização

#### Treinamento do modelo

Usar [Linear Regression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) para treinar um modelo linear sem regularização.

In [None]:
""" Escreva a solução aqui """

#### Avaliação do modelo treinado

Avaliar o desempenho do modelo treinado sobre as massas de **treino** de **teste** usando as funções abaixo:

* [`mean_squared_error`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)
* [`r2_score`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)

##### Sobre a Massa de Treino

In [None]:
""" Escreva a solução aqui """

##### Sobre a Massa de Teste

In [None]:
""" Escreva a solução aqui """

### Modelo c/ Regularização L1

#### Treinamento do modelo

Usar [Lasso Regression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) para treinar um modelo linear com regularização do tipo L1.

In [None]:
""" Escreva a solução aqui """

#### Avaliação do modelo treinado

Avaliar o desempenho do modelo treinado sobre as massas de **treino** de **teste** usando as funções abaixo:

* [`mean_squared_error`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)
* [`r2_score`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)

##### Sobre a Massa de Treino

In [None]:
""" Escreva a solução aqui """

##### Sobre a Massa de Teste

In [None]:
""" Escreva a solução aqui """

### Modelo c/ Regularização L2

#### Treinamento do modelo

Usar [Ridge Regression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) para treinar um modelo linear com regularização do tipo L2.

In [None]:
""" Escreva a solução aqui """

#### Avaliação do modelo treinado

Avaliar o desempenho do modelo treinado sobre as massas de **treino** de **teste** usando as funções abaixo:

* [`mean_squared_error`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)
* [`r2_score`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)

##### Sobre a Massa de Treino

In [None]:
""" Escreva a solução aqui """

##### Sobre a Massa de Teste

In [None]:
""" Escreva a solução aqui """

### Comparação dos modelos treinados

Criar uma tabela mostrando os valores de ${MSE}$ e de ${R^2}$ para as massas de treino e teste em cada modelo treinado, da forma mostrada abaixo:

| Regularização | ${MSE}$ de Treino | ${MSE}$ de Teste | ${R^2}$ de Treino | ${R^2}$ de Teste |
|:-------------:|:-----------------:|:----------------:|:-----------------:|:----------------:|
| Nenhuma       | x.xx              | x.xx             | x.xx              | x.xx             |
| L1            | x.xx              | x.xx             | x.xx              | x.xx             |
| L2            | x.xx              | x.xx             | x.xx              | x.xx             |

In [None]:
""" Escreva a solução aqui """

## B) Efeito do parâmetro ${alpha}$ da regularização sobre o desempenho dos modelos

O peso ${alpha}$ dado à regularização influencia o quanto o treinamento dos parâmetros é afetado. ${alpha}$ é sempre um número não negativo (i.e. ${\geq{0}}$); o caso especial em que ${alpha=0}$ é exatamente a Regressão Linear **sem regularização**.

Nessa seção, serão plotados alguns gráficos para avaliar como o ${alpha}$ influencia nas métricas da avaliação de um modelo. A comparação das métricas de avaliação das curvas de treino e de teste será feita variando ${alpha}$ e medindo o ${MSE}$ e o ${R^2}$.

### Função de Plot

In [None]:
def plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list):
    # plotting graphics
    fig, (ax_mse, ax_r2) = plt.subplots(2, sharex=True, figsize=(15, 8))

    # MSE
    mse_df = pd.DataFrame(
        index=alpha_list,
        columns=["train", "test"],
        data=list(zip(mse_tr_list, mse_te_list))
    )
    mse_df.plot(title="Comparação de MSE: Treino Vs Teste", ax=ax_mse)
    ax_mse.set(xlabel="alpha", ylabel="mean squared error")

    # R2
    r2_df = pd.DataFrame(
        index=alpha_list,
        columns=["train", "test"],
        data=list(zip(r2_tr_list, r2_te_list))
    )
    r2_df.plot(title="Comparação de R^2: Treino Vs Teste", ax=ax_r2)
    ax_r2.set(xlabel="alpha", ylabel="r squared")

### Regularização L1

Treinar um modelo para cada valor de *alpha* dado na lista e usar a função de plot para observar a evolução do ${R^2}$ para cada modelo.

Em todos os treinamenots, usar os seguintes parâmetros:
* `max_iter`: 1000 
* `random_state`: 42

In [None]:
# Definição dos valores de alpha
alpha_list = np.linspace(0.001, 3000, 100)

In [None]:
# initializing lists
mse_tr_list = []
mse_te_list = []
r2_tr_list = []
r2_te_list = []

In [None]:
""" Complete os espaços com ? """
for alpha in alpha_list:
    # create / train model
    model = ?
    
    # Train Evaluation Metrics
    mse_tr = ?
    r2_tr = ?
    
    # Test Evaluation Metrics
    mse_te = ?
    r2_te = ?
    
    # append all eval metrics
    mse_tr_list.append(mse_tr)
    mse_te_list.append(mse_te)
    r2_tr_list.append(r2_tr)
    r2_te_list.append(r2_te)

In [None]:
plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list)

### Regularização L2

In [None]:
# Definição dos valores de alpha
alpha_list = np.linspace(0.001, 3000, 100)

In [None]:
# initializing lists
mse_tr_list = []
mse_te_list = []
r2_tr_list = []
r2_te_list = []

In [None]:
""" Complete os espaços com ? """
for alpha in alpha_list:
    # create / train model
    model = ?
    
    # Train Evaluation Metrics
    mse_tr = ?
    r2_tr = ?
    
    # Test Evaluation Metrics
    mse_te = ?
    r2_te = ?
    
    # append all eval metrics
    mse_tr_list.append(mse_tr)
    mse_te_list.append(mse_te)
    r2_tr_list.append(r2_tr)
    r2_te_list.append(r2_te)

In [None]:
plot_comparison(alpha_list, mse_tr_list, mse_te_list, r2_tr_list, r2_te_list)

## C)  Avaliação dos Parâmetros

A principal característica da regularização é a diminuição gradual da magnitude dos pesos a cada iteração. Essa diminuição controla o tamanho máximo dos parâmetros internos do modelo, impedindo que os mesmos definam espaços de solução muito irregulares, o que pode levar a soluções não genéricas.

Nessa seção serão comparados os parâmetros treinados com **regularização L1**. Os valores de ${alpha}$ utilizados serão definidos a partir do estudo realizado no item B.

### Função Auxiliar

A função abaixo treina um dado modelo linear por `max_iter` épocas, armazenando o histórico de cada parâmetro.

In [None]:
def train_model(model_class, X, y, max_iter, **kwargs):
    
    def get_params(model, X, y, iter):        
        model.fit(X, y)
        return pd.DataFrame(
            index=[iter],
            columns=X.columns.tolist() + ["intercept"],
            data=[model.coef_.tolist() + [model.intercept_]]
        )
    
    model = model_class(warm_start=True, max_iter=1, **kwargs)
    params = get_params(model, X, y, 0)
    for iter in range(1, max_iter):        
        params = params.append(get_params(model, X, y, iter))
    return params

### Dados utilizados

Para facilitar a visualização da evolução dos pesos a cada iteração, será utilizada apenas uma amostra das features disponíveis. O número recomendável de features é de até 15; acima disso, fica difícil distinguir as cores de cada feature.

In [None]:
features = [
    'log_of_total_rooms', 
    'log_of_total_bedrooms', 
    'log_of_population',
    'log_of_households', 
    'log_of_median_income',
    'total_rooms', 
    'total_bedrooms', 
    'population',
    'households', 
    'median_income'
]

In [None]:
X = x_train[features]
y = y_train

### Valor de ${alpha}$ próximo a zero

In [None]:
""" Escreva a solução aqui """

### Valor de ${alpha}$ mediano

In [None]:
""" Escreva a solução aqui """

### Valor de ${alpha}$ alto

In [None]:
""" Escreva a solução aqui """