# **Comparação entre Modelos de Regressão**

Nesta seção, será realizada uma comparação entre quatro modelos distintos de regressão: **Regressão Linear**, **Ridge Regression**, **Lasso Regression** e **Elastic Net Regression**.

## **Objetivo da Comparação**

O principal objetivo é avaliar o desempenho de cada modelo na tarefa de prever o preço de venda das casas, utilizando as mesmas variáveis preditoras e o mesmo conjunto de dados. A comparação será baseada em métricas de erro, como o **Erro Quadrático Médio (MSE)**, permitindo identificar qual abordagem oferece a melhor capacidade preditiva para este problema.

## **Modelos a Serem Comparados**

1. **Regressão Linear**: Modelo base, sem regularização. Serve como referência para os demais.
2. **Ridge Regression**: Adiciona uma penalização L2, que reduz o impacto de colinearidade entre as features.
3. **Lasso Regression**: Utiliza penalização L1, promovendo a seleção de variáveis ao zerar coeficientes menos relevantes.
4. **Elastic Net Regression**: Combina as penalizações L1 e L2, buscando um equilíbrio entre redução de variância e seleção de variáveis.


In [None]:
# Importando bibliotecas 
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

## **Preparação dos Dados**

Nesta etapa, serão realizadas as seguintes ações:

1. **Exclusão de Features Irrelevantes**: Serão removidas as colunas que não contribuem para a previsão do preço das casas, como identificadores únicos ou informações redundantes.

2. **Definição das Variáveis Preditoras (Features)**: Selecionaremos as colunas que possuem relevância para o modelo, ou seja, aquelas que contêm informações úteis para prever o preço das casas.

3. **Definição da Variável Target**: A variável alvo será definida como a coluna que representa o preço de venda das casas, que é o objetivo principal da previsão.

Essas etapas são fundamentais para garantir que o modelo de regressão linear seja treinado com dados limpos e relevantes, maximizando sua performance.


In [3]:
# Carregando os dados
df = pd.read_csv('../../base/kc_house_data.csv')
# Excluindo colunas que não serão utilizadas
df.drop(columns=['id', 'date', 'zipcode', 'lat', 'long'], inplace=True)
df.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,1800,7503


In [4]:
# Definindo target e variaveis preditoras
x = df.drop(columns=['price'])
y = df['price']
# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)