# <center><span style="font-size: 42px; color: darkgreen;">Construindo Modelos de Regressão - Ridge e LASSO</span></center>

<br><br>

---

<br>

# Contexto

Neste projeto, abordaremos a construção de modelos de regressão linear regularizados utilizando as técnicas **Ridge** e **LASSO**. Essas abordagens são fundamentais para melhorar a performance de modelos ao lidar com datasets que possuem multicolinearidade ou um grande número de variáveis independentes. O objetivo principal é selecionar e ajustar o modelo com melhor desempenho para prever com precisão a variável alvo.

<br><br>

---

<br><br>

# Fluxograma do Processo

<br>

## 1. Importação de Bibliotecas  
**Objetivo:** Importar bibliotecas necessárias para manipulação de dados, visualização, cálculos estatísticos e modelagem.  
**Resultado:** Ambiente configurado.

<br>

## 2. Carregamento dos Dados  
**Objetivo:** Carregar os datasets de treino e teste.  
**Resultado:** Dados de treino e teste prontos para análise.

#### 2.1 Exploração Inicial dos Dados
**Objetivo:** Explorar os datasets de treino e teste.  
**Resultado:** Verificar como os dados estão organizados.

<br>

## 3. Verificação da Skewness na Variável Alvo (**SalePrice**)  
**Objetivo:** Identificar a assimetria da variável alvo para decidir sobre transformações.  
**Método:**  
- Visualização da distribuição com histogramas.  
- Cálculo do valor de skewness.  
**Decisão:** Aplicar transformação logarítmica se a skewness for alta (> 0.75).

<br>

## 4. Transformação Logarítmica na Variável Alvo  
**Objetivo:** Reduzir a skewness para melhorar a normalidade da variável alvo.  
**Resultado:** Variável alvo (**SalePrice**) transformada logaritmicamente.

<br>

## 5. Concatenando Recursos (Variáveis Independentes)  
**Objetivo:** Garantir consistência na aplicação de transformações nos conjuntos de treino e teste.  
**Resultado:** Dataset unificado para transformação.

<br>

## 6. Identificação e Correção de Skewness nos Recursos  
**Objetivo:** Corrigir skewness em variáveis numéricas que podem impactar negativamente o modelo.  
**Método:**  
- Identificar variáveis numéricas.  
- Calcular skewness.  
- Aplicar transformação logarítmica em variáveis com skewness > 0.75.  
**Resultado:** Recursos normalizados.

<br>

## 7. Tratamento de Variáveis Categóricas  
**Objetivo:** Converter variáveis categóricas em representações numéricas (dummies).  
**Método:**  
- Usar `pd.get_dummies` para codificação.  
- Preencher valores ausentes com a média.  
**Resultado:** Dataset preparado para modelagem.

<br>

## 8. Separação dos Conjuntos de Treino e Teste  
**Objetivo:** Dividir novamente os dados após transformações.  
**Resultado:** Dados prontos para treinamento e teste.

<br>

## 9. Criação de Função de Avaliação (RMSE)  
**Objetivo:** Avaliar a performance dos modelos usando validação cruzada.  
**Resultado:** Função para cálculo de **RMSE** disponível.

<br>

## 10. Treinamento e Avaliação dos Modelos

<br>

#### 10.1 <u>Modelo de Regressão Linear</u> 
**Objetivo:** Avaliar o desempenho como base de comparação.  
**Resultado:** RMSE obtido.

#### 10.2 <u>Modelo de Regressão Ridge</u>
**Objetivo:**  
- Testar diferentes valores de regularização (**α**).  
- Selecionar o melhor **α** com menor RMSE.  
**Resultado:** Modelo Ridge ajustado e avaliado.

#### 10.3 <u>Modelo de Regressão LASSO</u>
**Objetivo:** Ajustar modelo LASSO com seleção automática de variáveis.  
**Resultado:** Modelo LASSO ajustado e avaliado.

<br>

## 11. Construção do Modelo Final

**Objetivo:** Usar o melhor modelo (com menor RMSE) para fazer previsões.  
**Resultado:** Previsões finais geradas para o conjunto de teste.


<br><br><br>

---

<br><br>

# 1. Importando Pacotes

In [1]:
# Importando bibliotecas principais
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import skew
from sklearn.linear_model import LinearRegression, Ridge, LassoCV
from sklearn.model_selection import cross_val_score

# Configurando o ambiente
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline



<br>

# 2. Carregando os Dados

In [3]:
# Carregando os dados de treino e teste
train = pd.read_csv("dados/house_prices_train.csv")
test = pd.read_csv("dados/house_prices_test.csv")

# Visualizando as dimensões e as primeiras linhas do conjunto de treino
print(f"Treino: {train.shape}, Teste: {test.shape}")
print('\n\nVisualizando dados de treino:')
display(train.head())

Treino: (1460, 81), Teste: (1459, 80)


Visualizando dados de treino:


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
