# Regularização

Neste notebook veremos alguns modelos que já aplicam regularizações L1, L2 e ElasticNet.

In [None]:
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
%matplotlib inline

np.random.seed(42)

# Definindo gráficos maiores
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 10

# Criando arrays aleatórios
x = np.array([i*np.pi/180 for i in range(60,300,4)])
y = np.sin(x) + np.random.normal(0,0.15,len(x))
data = pd.DataFrame(np.column_stack([x,y]),columns=['x','y'])
plt.plot(data['x'],data['y'],'.')
plt.show()

In [None]:
# Criando os dados
for i in range(2,16):  
    colname = 'x_%d'%i  
    data[colname] = data['x']**i
data.head()

## Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression

def linear_regression(data, power, models_to_plot):
    
    # Criando dados com suas exponenciações
    predictors=['x']
    
    if(power >= 2):
        predictors.extend(['x_%d'%i for i in range(2, power + 1)])
    
    # Treinando os modelos
    linreg = LinearRegression(normalize=True)
    linreg.fit(data[predictors],data['y'])
    y_pred = linreg.predict(data[predictors])
    
    # Checando se o expoente está na lista
    if power in models_to_plot:
        plt.subplot(models_to_plot[power])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plotando para expoente: %d'%power)

In [None]:
#Initialize a dataframe to store the results:
col = ['coef_x_%d'%i for i in range(1,16)]
ind = ['model_pow_%d'%i for i in range(1,16)]
coef_matrix_simple = pd.DataFrame(index=ind, columns=col)

# Definindo os modelos para o plot
models_to_plot = {1:231,3:232,6:233,9:234,12:235,15:236}

# Iterando nos expoentes
for i in range(1,16):
    linear_regression(data, power=i, models_to_plot=models_to_plot)

## Ridge Regression - Regularização L2

In [None]:
from sklearn.linear_model import Ridge

def ridge_regression(data, predictors, alpha, models_to_plot={}):
    # Treinando o modelo
    ridgereg = Ridge(alpha=alpha,normalize=True)
    ridgereg.fit(data[predictors],data['y'])
    y_pred = ridgereg.predict(data[predictors])
    
    # Checando se o plot está correto para o alpha específico
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plotando para alpha: %.3g'%alpha)

In [None]:
# Inicializando o predictors
predictors=['x']
predictors.extend(['x_%d'%i for i in range(2,16)])

# Setando diferentes valores de alpha para o Ridge
alpha_ridge = [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]

# Inicializando o dataframe para armazenar os coeficientes
col = ['coef_x_%d'%i for i in range(1,16)]
ind = ['alpha_%.2g'%alpha_ridge[i] for i in range(0,10)]
coef_matrix_ridge = pd.DataFrame(index=ind, columns=col)

# Inicializando os modelos para plot
models_to_plot = {1e-15:231, 1e-10:232, 1e-4:233, 1e-3:234, 1e-2:235, 5:236}

# Iterando sobre os alphas
for i in range(10):
    coef_matrix_ridge.iloc[i,] = ridge_regression(data, predictors, alpha_ridge[i], models_to_plot)

## LASSO - Regularização L1

In [None]:
from sklearn.linear_model import Lasso

def lasso_regression(data, predictors, alpha, models_to_plot={}):
    # Treinando o modelo
    lassoreg = Lasso(alpha=alpha,normalize=True, max_iter=1e5)
    lassoreg.fit(data[predictors],data['y'])
    y_pred = lassoreg.predict(data[predictors])
    
    # Checando se o plot está correto para o alpha específico
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['x'],y_pred)
        plt.plot(data['x'],data['y'],'.')
        plt.title('Plotando para alpha: %.3g'%alpha)

In [None]:
# Inicializando os predictors
predictors=['x']
predictors.extend(['x_%d'%i for i in range(2,16)])

# Definindo valores de alpha
alpha_lasso = [1e-15, 1e-10, 1e-8, 1e-5,1e-4, 1e-3,1e-2, 1, 5, 10]

# Inicializando os dados
col = ['coef_x_%d'%i for i in range(1,16)]
ind = ['alpha_%.2g'%alpha_lasso[i] for i in range(0,10)]
coef_matrix_lasso = pd.DataFrame(index=ind, columns=col)

# Definindo os modelos para plot
models_to_plot = {1e-10:231, 1e-5:232,1e-4:233, 1e-3:234, 1e-2:235, 1:236}

# Iterando sobre os alphas
for i in range(10):
    coef_matrix_lasso.iloc[i,] = lasso_regression(data, predictors, alpha_lasso[i], models_to_plot)