# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [8]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import statsmodels.api as sm
import patsy

In [9]:
df = pd.read_csv('previsao_de_renda.csv')

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [11]:

# excluir valores nulos sem sentido
df = df.dropna()
# excluir colunas desnecessárias. 
df = df.drop(['Unnamed: 0','data_ref','id_cliente'], axis=1)


In [12]:
df.head()

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34
1,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97


In [13]:
reg = smf.ols('np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + C(qtd_filhos) + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego + C(qt_pessoas_residencia) - 1', 
              data = df).fit()
reg.summary()
# "-1" ao final remove o intercepto com isso conseguimos controlar manualmente as categorias de referência


0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.358
Model:,OLS,Adj. R-squared:,0.357
Method:,Least Squares,F-statistic:,203.5
Date:,"Fri, 23 Aug 2024",Prob (F-statistic):,0.0
Time:,10:28:08,Log-Likelihood:,-13559.0
No. Observations:,12427,AIC:,27190.0
Df Residuals:,12392,BIC:,27450.0
Df Model:,34,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
sexo[F],6.8777,0.145,47.526,0.000,6.594,7.161
sexo[M],7.6654,0.144,53.182,0.000,7.383,7.948
posse_de_veiculo[T.True],0.0436,0.014,3.079,0.002,0.016,0.071
posse_de_imovel[T.True],0.0828,0.014,5.907,0.000,0.055,0.110
C(qtd_filhos)[T.1],-0.2501,0.112,-2.239,0.025,-0.469,-0.031
C(qtd_filhos)[T.2],-0.5697,0.223,-2.559,0.011,-1.006,-0.133
C(qtd_filhos)[T.3],-0.5560,0.486,-1.144,0.253,-1.509,0.397
C(qtd_filhos)[T.4],0.3446,0.439,0.785,0.432,-0.516,1.205
C(qtd_filhos)[T.5],0.2740,0.407,0.674,0.501,-0.523,1.071

0,1,2,3
Omnibus:,1.227,Durbin-Watson:,2.024
Prob(Omnibus):,0.542,Jarque-Bera (JB):,1.2
Skew:,0.022,Prob(JB):,0.549
Kurtosis:,3.018,Cond. No.,1.25e+16


In [14]:
# acredito que podemos remover a variavel Educação, ela apresenta diversos Dummies com baixa correlação( alto P-value)
reg2 = smf.ols('np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + C(qtd_filhos) + tipo_renda + estado_civil + tipo_residencia + idade + tempo_emprego + C(qt_pessoas_residencia) - 1', 
               data = df).fit()
reg2.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.355
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,227.4
Date:,"Fri, 23 Aug 2024",Prob (F-statistic):,0.0
Time:,10:32:17,Log-Likelihood:,-13592.0
No. Observations:,12427,AIC:,27250.0
Df Residuals:,12396,BIC:,27480.0
Df Model:,30,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
sexo[F],6.9120,0.127,54.498,0.000,6.663,7.161
sexo[M],7.6923,0.126,60.870,0.000,7.445,7.940
posse_de_veiculo[T.True],0.0525,0.014,3.713,0.000,0.025,0.080
posse_de_imovel[T.True],0.0855,0.014,6.091,0.000,0.058,0.113
C(qtd_filhos)[T.1],-0.2344,0.112,-2.094,0.036,-0.454,-0.015
C(qtd_filhos)[T.2],-0.5553,0.223,-2.489,0.013,-0.993,-0.118
C(qtd_filhos)[T.3],-0.5550,0.487,-1.139,0.255,-1.510,0.400
C(qtd_filhos)[T.4],0.3103,0.440,0.705,0.481,-0.552,1.173
C(qtd_filhos)[T.5],0.2453,0.408,0.602,0.547,-0.554,1.044

0,1,2,3
Omnibus:,1.693,Durbin-Watson:,2.024
Prob(Omnibus):,0.429,Jarque-Bera (JB):,1.66
Skew:,0.024,Prob(JB):,0.436
Kurtosis:,3.029,Cond. No.,1.25e+16


**Tivemos poucas mudanças no modelo e um menor R². 
Agora vamos remover algumas variaveis com menos relevância para o modelo (qtd_filhos, tipo_renda, educacao, estado_civil, tipo_residencia, qt_pessoas_residencia)**

In [15]:
reg_ajustado = smf.ols('np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + idade + tempo_emprego - 1', 
                       data = df).fit()
reg_ajustado.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.346
Model:,OLS,Adj. R-squared:,0.346
Method:,Least Squares,F-statistic:,1315.0
Date:,"Fri, 23 Aug 2024",Prob (F-statistic):,0.0
Time:,10:39:51,Log-Likelihood:,-13676.0
No. Observations:,12427,AIC:,27360.0
Df Residuals:,12421,BIC:,27410.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
sexo[F],7.2550,0.032,228.981,0.000,7.193,7.317
sexo[M],8.0250,0.032,251.791,0.000,7.962,8.087
posse_de_veiculo[T.True],0.0579,0.014,4.116,0.000,0.030,0.085
posse_de_imovel[T.True],0.0880,0.014,6.379,0.000,0.061,0.115
idade,0.0044,0.001,5.871,0.000,0.003,0.006
tempo_emprego,0.0611,0.001,59.199,0.000,0.059,0.063

0,1,2,3
Omnibus:,1.248,Durbin-Watson:,2.026
Prob(Omnibus):,0.536,Jarque-Bera (JB):,1.221
Skew:,0.022,Prob(JB):,0.543
Kurtosis:,3.019,Cond. No.,287.0



**Não observei mudanças significativas entre os modelos. 
O modelo final ficou mais enxuto e de fácil interpretação, contendo apenas as variáveis mais relevantes. 
O AIC, R² e R² ajustado não melhoraram, porém entendo que o modelo esta mais eficiente.**
