# Regularização

Viés - diferença entre a predição média do nosso modelo e o valor correto  esperado, um viés alto significa que o modelo aprendeu relações erradas e gerou previsões longe do esperado -  gera UNDERFITTING

Variância - variabilidade do modelo para um determinado dado, capacidade do modelo de se adaptar á base de treino e ao ruído. Modelos com alta variância focam excessivamente se ajustar aos dados e, inclusive, ao ruído - gera OVERFITTING

<img src="https://user-images.githubusercontent.com/105823082/184041874-39bc3130-dbc3-4513-9209-393ddc2b73ec.png" width="700" height="700">

Quando fazemos um modelo, pensamos em ter uma boa relação entre viés-variância, mas quanto temos uma pequena quantidade de dados, é provável que teremos um overfitting. Uma das alternativas é a validação cruzada, que analisaremos outro dia, outra forma é com a regularização das variáveis, usando os parametrôs L1 e L2.

Um dos motivos para termos overfitting em um pequeno conjunto de dados é que dentro da % dos dados que utilizamos para construir os dados de treino, é possível que uma variável tenha tomado um peso maior do que ela deveria, gerando um modelo com alta variância, a ideia é aumentar o viés do modelo para reduzir a variância para reduzir o ajuste excessivo dos dados.

<img src="https://user-images.githubusercontent.com/105823082/184044616-91a7a685-c57f-4630-b18b-45ef7d251abf.png" width="500" height="500">

Usamos a função custo para descobrir os melhores valores possíveis para m e B, que fornece a melhor linha de ajuste para os pontos de dados. Essa soma do módulo de w é um modo de frear as variáveis com peso maior, se pensarmos que a melhor combinação foi w1 = 1 e w2 = 4, quando somamos (1+4) o algoritmo chega em um erro maior, e uma forma de minimizar esse erro é dando outros valores para w, w1 = 1.3 e w2 = 3, dessa forma nós diminuimos o peso da váriavel w2 aumentando o viés e diminuindo a variância

<img src="https://user-images.githubusercontent.com/105823082/184044654-f4133df2-4fd3-43e4-94a6-1012ec214158.png" width="500" height="500">

De forma similar o parâmetro L2 tem a mesma função que o L1 mas com mais força, por ele elevar o w ao quadrado ao inves de simplesmente somar, o algoritmo acaba reduzindo mais ainda as variáveis com maior peso, vamos usar o mesmo exemplo, se tivéssemos w1 = 1 e w2 = 4, ao somar (1 ** 2 + 4 ** 2), o resultado seria somado 17 ao erro médio, e novamente o algoritmo ia alterar as variáveis para chegar em um erro menor, w1 = 2 e w2 = 3, que ao elevar ao quadrado (2 ** 2 + 3 ** 2) resultaria em um valor menor 13.

# Aplicando os conceitos

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error,mean_squared_error

Vamos utilizar o mesmo dataset usado na regressão linear

In [2]:
df = pd.read_csv(r'C:\Users\Usuario\Desktop\data\houses\house.csv')
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


Separando as features e a variavel alvo

In [3]:
X = df.drop(['price','date','zipcode','long','lat','id'], axis=1, inplace=False)
y = df.price

Separando os dados de treino e teste

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=14)

Primeiro vamos criar uma regressão linear

In [5]:
modelo = LinearRegression()
modelo.fit(X_train,y_train)

LinearRegression()

In [6]:
resultado = modelo.score(X_test, y_test)
resultado

0.6538094196281063

##### Agora vamos aplicar os conceitos apresentados

In [7]:
from sklearn.linear_model import Ridge
modeloRidge = Ridge()
modeloRidge.fit(X_train, y_train)

Ridge()

In [8]:
resultadoRidge = modeloRidge.score(X_test, y_test)
resultadoRidge

0.6539029726255621

In [9]:
from sklearn.linear_model import Lasso
modeloLasso = Lasso(tol=0.1)
modeloLasso.fit(X_train, y_train)

Lasso(tol=0.1)

In [10]:
modeloLasso = modeloLasso.score(X_test, y_test)
modeloLasso

0.6538117156757711

In [11]:
print(f'Regressão linear: {resultado}\nRidge: {resultadoRidge}\nLasso: {modeloLasso}')

Regressão linear: 0.6538094196281063
Ridge: 0.6539029726255621
Lasso: 0.6538117156757711


Podemos notar uma pequena diferença entre os scores

# Elastic Net

Outra tipo de regularização é a elastic net. Ela é a combinação do LASSO com a RIDGE, ao invés de somarmos apenas um deles na função de custo, vamos somar os 2 parâmetros. Podemos escolher o peso de cada uma delas, multiplicando a função LASSO por c e a função RIDGE por (1-c). C variando de 0 a 1

<img src="https://user-images.githubusercontent.com/105823082/184127319-fee4366f-11fa-4da0-9bd0-25b5bff3eb43.png" width="450" height="450">

In [27]:
from sklearn.linear_model import ElasticNet
modeloElasticNet = ElasticNet(l1_ratio = 0.5,tol=0.25, max_iter= 5000)
modeloElasticNet.fit(X_train, y_train)

ElasticNet(max_iter=5000, tol=0.25)

In [28]:
resultadoEN = modeloElasticNet.score(X_test, y_test)
resultadoEN

0.6233739640209431

### Aplicando todos de uma vez

In [32]:
models = [('LinearRegression',LinearRegression()),('Ridge',Ridge()),('Lasso',Lasso(tol=0.1)),('ElasticNet',ElasticNet(l1_ratio = 0.5,tol=0.25, max_iter= 5000))]

In [33]:
for name, model in models:
    modelo = model
    modelo.fit(X_train, y_train)
    resultado = modelo.score(X_test, y_test)
    print(f'{name}: {resultado}')

LinearRegression: 0.6538094196281063
Ridge: 0.6539029726255621
Lasso: 0.6538117156757711
ElasticNet: 0.6233739640209431
