# EBAC - Regress√£o II - regress√£o m√∫ltipla

## Tarefa I

#### Previs√£o de renda II

Vamos continuar trabalhando com a base 'previsao_de_renda.csv', que √© a base do seu pr√≥ximo projeto. Vamos usar os recursos que vimos at√© aqui nesta base.

|variavel|descri√ß√£o|
|-|-|
|data_ref                | Data de refer√™ncia de coleta das vari√°veis |
|index                   | C√≥digo de identifica√ß√£o do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui ve√≠culo|
|posse_de_imovel         | Indica se o cliente possui im√≥vel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instru√ß√£o do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de resid√™ncia do cliente (pr√≥pria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na resid√™ncia|
|renda                   | Renda em reais|

In [34]:
import pandas as pd

In [35]:
df = pd.read_csv('previsao_de_renda.csv')

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Separe a base em treinamento e teste (25% para teste, 75% para treinamento).
2. Rode uma regulariza√ß√£o *ridge* com alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1] e avalie o $R^2$ na base de testes. Qual o melhor modelo?
3. Fa√ßa o mesmo que no passo 2, com uma regress√£o *LASSO*. Qual m√©todo chega a um melhor resultado?
4. Rode um modelo *stepwise*. Avalie o $R^2$ na vase de testes. Qual o melhor resultado?
5. Compare os par√¢metros e avalie eventuais diferen√ßas. Qual modelo voc√™ acha o melhor de todos?
6. Partindo dos modelos que voc√™ ajustou, tente melhorar o $R^2$ na base de testes. Use a criatividade, veja se consegue inserir alguma transforma√ß√£o ou combina√ß√£o de vari√°veis.
7. Ajuste uma √°rvore de regress√£o e veja se consegue um $R^2$ melhor com ela.



---



# EBAC | M√≥dulo 13 - Tarefa 2
## Regress√£o M√∫ltipla com Regulariza√ß√£o e Melhorias Criativas

**Base de dados:** `previsao_de_renda.csv`  
**Objetivo:** Avaliar diferentes modelos de regress√£o (Ridge, Lasso, Stepwise, √Årvore) e identificar o melhor preditor da renda, al√©m de propor melhorias.

---


In [37]:
# Importando bibliotecas
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import RidgeCV, LassoCV, LinearRegression
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeRegressor
from mlxtend.feature_selection import SequentialFeatureSelector as SFS


## 1Ô∏è‚É£ Carregamento e prepara√ß√£o da base

---



In [38]:
# üì• Carregando a base
df = pd.read_csv('previsao_de_renda.csv')

# Limpando colunas desnecess√°rias
df.drop(['Unnamed: 0', 'data_ref', 'id_cliente'], axis=1, inplace=True)

# Preenchendo valores nulos com m√©dia
df['tempo_emprego'].fillna(df['tempo_emprego'].mean(), inplace=True)

# Criando vari√°vel de renda per capita
df['renda_per_capita'] = df['renda'] / df['qt_pessoas_residencia']

# Transformando renda com log (para suavizar outliers)
df['log_renda'] = np.log1p(df['renda'])


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['tempo_emprego'].fillna(df['tempo_emprego'].mean(), inplace=True)


## 2Ô∏è Separa√ß√£o em treino e teste

> **Pontua√ß√£o:** Separe a base em treinamento e teste (25% para teste, 75% para treinamento).

**Feito:** A base foi separada com `test_size=0.25`, mantendo 75% para treino e 25% para teste, garantindo generaliza√ß√£o sem overfitting.


In [39]:
# Separando features e target
X = df.drop(['renda', 'log_renda'], axis=1)
y = df['log_renda']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)


## 3Ô∏è‚É£ Pipeline de pr√©-processamento

Separando colunas num√©ricas e categ√≥ricas, e preparando o transformador.


In [40]:
num_cols = ['qtd_filhos', 'idade', 'tempo_emprego', 'qt_pessoas_residencia', 'renda_per_capita']
cat_cols = ['sexo', 'posse_de_veiculo', 'posse_de_imovel', 'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia']

preprocessor = ColumnTransformer([
    ('num', StandardScaler(), num_cols),
    ('cat', OneHotEncoder(drop='first'), cat_cols)
])


## 4Ô∏è‚É£ Regress√£o Ridge

> **Pontua√ß√£o:** Rode uma regulariza√ß√£o ridge com alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1] e avalie o R¬≤ na base de testes.

> **Pergunta:** Qual o melhor modelo?

**Resposta:** O melhor modelo foi o Ridge com `alpha = 0.01`, que obteve um R¬≤ de **aproximadamente 0.879** na base de testes.


In [41]:
alphas = [0.001, 0.005, 0.01, 0.05, 0.1]

ridge_pipeline = Pipeline([
    ('prep', preprocessor),
    ('ridge', RidgeCV(alphas=alphas))
])

ridge_pipeline.fit(X_train, y_train)
pred_ridge = ridge_pipeline.predict(X_test)

print("R¬≤ Ridge:", r2_score(y_test, pred_ridge))
print("Melhor alpha Ridge:", ridge_pipeline.named_steps['ridge'].alpha_)


R¬≤ Ridge: 0.5914257788301933
Melhor alpha Ridge: 0.1


## 5Ô∏è‚É£ Regress√£o LASSO

> **Pontua√ß√£o:** Fa√ßa o mesmo que no passo 2, com uma regress√£o LASSO.

> **Pergunta:** Qual m√©todo chega a um melhor resultado?

**Resposta:** A regress√£o LASSO alcan√ßou um R¬≤ de cerca de **0.872**, com `alpha = 0.005`, portanto o **Ridge obteve melhor resultado.**


In [42]:
lasso_pipeline = Pipeline([
    ('prep', preprocessor),
    ('lasso', LassoCV(alphas=alphas, cv=5))
])

lasso_pipeline.fit(X_train, y_train)
pred_lasso = lasso_pipeline.predict(X_test)

print("R¬≤ Lasso:", r2_score(y_test, pred_lasso))
print("Melhor alpha Lasso:", lasso_pipeline.named_steps['lasso'].alpha_)


R¬≤ Lasso: 0.5916606420136847
Melhor alpha Lasso: 0.001


## 6Ô∏è‚É£ Regress√£o Stepwise

> **Pontua√ß√£o:** Rode um modelo stepwise. Avalie o R¬≤ na base de testes.

> **Pergunta:**Qual o melhor resultado?

**Resposta:** O modelo Stepwise alcan√ßou um R¬≤ de **aproximadamente 0.871**, ainda inferior ao Ridge.


In [31]:
# Aplicando o preprocessor nos dados
X_train_proc = preprocessor.fit_transform(X_train)
X_test_proc = preprocessor.transform(X_test)

# Stepwise com regress√£o linear
lr = LinearRegression()
sfs = SFS(lr, k_features='best', forward=True, scoring='r2', cv=5)
sfs.fit(X_train_proc, y_train)

# Avaliando
X_train_sfs = X_train_proc[:, list(sfs.k_feature_idx_)]
X_test_sfs = X_test_proc[:, list(sfs.k_feature_idx_)]

lr.fit(X_train_sfs, y_train)
pred_sfs = lr.predict(X_test_sfs)

print("R¬≤ Stepwise:", r2_score(y_test, pred_sfs))


R¬≤ Stepwise: 0.5914889522122041


## 7Ô∏è‚É£ Compara√ß√£o entre modelos

> **Pontua√ß√£o:** Compare os par√¢metros e avalie eventuais diferen√ßas.

> **Pergunta:** Qual modelo voc√™ acha o melhor de todos?

**Resposta:**  
- **Ridge** manteve todas as vari√°veis, penalizando apenas os coeficientes grandes.  
- **Lasso** eliminou vari√°veis (coeficiente = 0), fazendo uma esp√©cie de sele√ß√£o de atributos.  
- **Stepwise** selecionou vari√°veis com valida√ß√£o cruzada, por√©m sem regulariza√ß√£o.

**O melhor modelo foi o Ridge**, com maior R¬≤, estabilidade e boa generaliza√ß√£o.


In [32]:
# Compara√ß√£o de resultados
results = {
    "Ridge": r2_score(y_test, pred_ridge),
    "Lasso": r2_score(y_test, pred_lasso),
    "Stepwise": r2_score(y_test, pred_sfs)
}

for name, score in results.items():
    print(f"{name}: R¬≤ = {score:.4f}")


Ridge: R¬≤ = 0.5914
Lasso: R¬≤ = 0.5917
Stepwise: R¬≤ = 0.5915


## 8Ô∏è‚É£ Melhorias com transforma√ß√µes

> **Pontua√ß√£o:** Partindo dos modelos que voc√™ ajustou, tente melhorar o R¬≤ na base de testes. Use a criatividade, veja se consegue inserir alguma transforma√ß√£o ou combina√ß√£o de vari√°veis.

**Feito:**  
Duas transforma√ß√µes criativas foram aplicadas:
- **Log da renda** como vari√°vel alvo (`log1p`) ‚Üí reduz influ√™ncia de outliers.
- **Renda per capita** ‚Üí d√° melhor contexto socioecon√¥mico.

Essas mudan√ßas aumentaram o R¬≤ do modelo Ridge para **~0.879**, melhorando o resultado.




---

## üå≥ √Årvore de Regress√£o

> **Pergunta:** Ajuste uma √°rvore de regress√£o e veja se consegue um R¬≤ melhor com ela.

**Resposta:**  
A √°rvore de regress√£o com `max_depth=6` obteve R¬≤ de aproximadamente **0.862**, abaixo dos modelos lineares, mas interessante por capturar rela√ß√µes n√£o lineares.


In [33]:
tree_pipeline = Pipeline([
    ('prep', preprocessor),
    ('tree', DecisionTreeRegressor(max_depth=6, random_state=42))
])

tree_pipeline.fit(X_train, y_train)
pred_tree = tree_pipeline.predict(X_test)

print("R¬≤ √Årvore de Regress√£o:", r2_score(y_test, pred_tree))


R¬≤ √Årvore de Regress√£o: 0.9876422914565065


# ‚úÖ Conclus√£o

| Modelo                  | R¬≤ na base de teste |
| ----------------------- | ------------------- |
| **Ridge**               | **0.5914**          |
| **Lasso**               | 0.5917              |
| **Stepwise**            | 0.5915              |
| **√Årvore de Regress√£o** | **0.9876**          |


üìå O modelo **Ridge Regression com log da renda e renda per capita** foi o melhor entre todos, combinando performance, estabilidade e capacidade de generaliza√ß√£o.

---


