# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda II

Vamos continuar trabalhando com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [15]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [2]:
data = pd.read_csv('../previsao_de_renda.csv')
data.drop(['Unnamed: 0', 'id_cliente'], axis=1, inplace=True)
data.dropna(inplace=True)
data.head()

Unnamed: 0,data_ref,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,2015-01-01,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34
1,2015-01-01,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,2015-01-01,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,2015-01-01,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,2015-01-01,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12427 entries, 0 to 14999
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   data_ref               12427 non-null  object 
 1   sexo                   12427 non-null  object 
 2   posse_de_veiculo       12427 non-null  bool   
 3   posse_de_imovel        12427 non-null  bool   
 4   qtd_filhos             12427 non-null  int64  
 5   tipo_renda             12427 non-null  object 
 6   educacao               12427 non-null  object 
 7   estado_civil           12427 non-null  object 
 8   tipo_residencia        12427 non-null  object 
 9   idade                  12427 non-null  int64  
 10  tempo_emprego          12427 non-null  float64
 11  qt_pessoas_residencia  12427 non-null  float64
 12  renda                  12427 non-null  float64
dtypes: bool(2), float64(3), int64(2), object(6)
memory usage: 1.2+ MB


1. Separe a base em treinamento e teste (25% para teste, 75% para treinamento).
2. Rode uma regularização *ridge* com alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1] e avalie o $R^2$ na base de testes. Qual o melhor modelo?
3. Faça o mesmo que no passo 2, com uma regressão *LASSO*. Qual método chega a um melhor resultado?
4. Rode um modelo *stepwise*. Avalie o $R^2$ na vase de testes. Qual o melhor resultado?
5. Compare os parâmetros e avalie eventuais diferenças. Qual modelo você acha o melhor de todos?
6. Partindo dos modelos que você ajustou, tente melhorar o $R^2$ na base de testes. Use a criatividade, veja se consegue inserir alguma transformação ou combinação de variáveis.
7. Ajuste uma árvore de regressão e veja se consegue um $R^2$ melhor com ela.

In [4]:
# Exc 1
y = data['renda'].copy()
X = data.drop('renda', axis=1).copy()

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=10)

In [5]:
data_train = pd.concat([x_train, y_train], axis=1)
data_train.head(5)

Unnamed: 0,data_ref,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
5269,2015-06-01,F,False,True,0,Empresário,Secundário,Casado,Casa,40,15.109589,2.0,6014.68
4685,2015-05-01,M,True,False,1,Assalariado,Secundário,Casado,Casa,26,0.380822,3.0,1634.01
820,2015-01-01,M,True,True,0,Assalariado,Secundário,Casado,Com os pais,44,8.523288,2.0,7692.33
4703,2015-05-01,M,False,True,0,Empresário,Superior completo,Solteiro,Aluguel,27,3.345205,1.0,1935.13
572,2015-01-01,F,False,False,0,Assalariado,Secundário,Casado,Casa,52,9.030137,2.0,2552.31


In [6]:
def casela_de_ref(col: pd.Series) -> str:
    index = ''
    freq_lst = col.value_counts() / len(col)
    for i, value in enumerate(freq_lst):
        if value == freq_lst.max():
            index = freq_lst.index[i]
    return index

In [7]:
formula = 'np.log(renda) ~ '

for col in x_train:
    if data[col].dtype == 'O':
        formula += "C({}, Treatment(reference='{}')) + ".format(col, casela_de_ref(x_train[col]))
    else:
        formula += "{} + ".format(col)

formula = formula[:-3]
formula

"np.log(renda) ~ C(data_ref, Treatment(reference='2016-02-01')) + C(sexo, Treatment(reference='F')) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment(reference='Assalariado')) + C(educacao, Treatment(reference='Secundário')) + C(estado_civil, Treatment(reference='Casado')) + C(tipo_residencia, Treatment(reference='Casa')) + idade + tempo_emprego + qt_pessoas_residencia"

In [38]:
model = smf.ols(formula, data_train)
reg = model.fit_regularized(method='elastic_net', refit=True, L1_wt=0, alpha=0.01)
reg

<statsmodels.base.elastic_net.RegularizedResults at 0x28e79dd8ec0>