# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [94]:
# import math

import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

# from sklearn.model_selection import train_test_split
# from sklearn import metrics
# from sklearn.ensemble import RandomForestClassifier

# from scipy.stats import ks_2samp
import statsmodels.formula.api as smf
import statsmodels.api as sm
import patsy

%matplotlib inline

In [95]:
df = pd.read_csv('previsao_de_renda.csv')

In [96]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [102]:
# Utilizando Patsy para transformar variáveis explicativas em dummies,
# Com a categora mais frequente como casela de referência.
y, x = patsy.dmatrices(
    'renda ~ data_ref + sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda) + C(educacao) + C(estado_civil) + C(tipo_residencia) + idade + tempo_emprego + C(qt_pessoas_residencia) + 1',
    df,
)



In [103]:
sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.258
Model:,OLS,Adj. R-squared:,0.255
Method:,Least Squares,F-statistic:,95.43
Date:,"Sat, 22 Jul 2023",Prob (F-statistic):,0.0
Time:,16:00:55,Log-Likelihood:,-128780.0
No. Observations:,12427,AIC:,257600.0
Df Residuals:,12381,BIC:,258000.0
Df Model:,45,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-4641.4860,1556.150,-2.983,0.003,-7691.783,-1591.189
data_ref[T.2015-02-01],-54.6561,377.074,-0.145,0.885,-793.780,684.468
data_ref[T.2015-03-01],225.4371,378.058,0.596,0.551,-515.615,966.489
data_ref[T.2015-04-01],636.9865,377.061,1.689,0.091,-102.112,1376.085
data_ref[T.2015-05-01],172.2755,375.895,0.458,0.647,-564.538,909.089
data_ref[T.2015-06-01],645.7071,377.451,1.711,0.087,-94.156,1385.571
data_ref[T.2015-07-01],371.4505,376.219,0.987,0.324,-365.996,1108.897
data_ref[T.2015-08-01],209.7296,377.515,0.556,0.579,-530.258,949.717
data_ref[T.2015-09-01],156.4475,374.993,0.417,0.677,-578.598,891.493

0,1,2,3
Omnibus:,17566.301,Durbin-Watson:,2.036
Prob(Omnibus):,0.0,Jarque-Bera (JB):,9877507.882
Skew:,8.123,Prob(JB):,0.0
Kurtosis:,140.158,Cond. No.,13800.0


#### Remova a variável menos significante e analise:
    * Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    * Observe os parâmetros e veja se algum se alterou muito.

In [126]:
y, x = patsy.dmatrices(
    'renda ~ sexo + C(tipo_renda) + C(educacao, Treatment(2)) + tempo_emprego + 0',
    df,
)

In [127]:
sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.253
Model:,OLS,Adj. R-squared:,0.253
Method:,Least Squares,F-statistic:,421.3
Date:,"Sat, 22 Jul 2023",Prob (F-statistic):,0.0
Time:,16:07:36,Log-Likelihood:,-128810.0
No. Observations:,12427,AIC:,257600.0
Df Residuals:,12416,BIC:,257700.0
Df Model:,10,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
sexo[F],-884.6470,149.066,-5.935,0.000,-1176.839,-592.455
sexo[M],5135.0140,153.533,33.446,0.000,4834.065,5435.963
C(tipo_renda)[T.Bolsista],-838.7642,2565.605,-0.327,0.744,-5867.749,4190.220
C(tipo_renda)[T.Empresário],782.0960,158.287,4.941,0.000,471.829,1092.363
C(tipo_renda)[T.Pensionista],-3234.0899,2564.408,-1.261,0.207,-8260.726,1792.547
C(tipo_renda)[T.Servidor público],116.7853,236.236,0.494,0.621,-346.275,579.845
"C(educacao, Treatment(2))[T.Primário]",-732.2743,763.212,-0.959,0.337,-2228.289,763.740
"C(educacao, Treatment(2))[T.Pós graduação]",643.2649,1511.162,0.426,0.670,-2318.847,3605.377
"C(educacao, Treatment(2))[T.Superior completo]",532.9982,146.125,3.648,0.000,246.571,819.426

0,1,2,3
Omnibus:,17567.311,Durbin-Watson:,2.033
Prob(Omnibus):,0.0,Jarque-Bera (JB):,9867501.146
Skew:,8.124,Prob(JB):,0.0
Kurtosis:,140.087,Cond. No.,382.0


#### Em resumo, o modelo atual parece ser uma escolha mais simples em comparação com o primeiro modelo, com menos variáveis explicativas, mas ainda consegue explicar uma parte significativa da variação na renda