# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [17]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
from patsy import dmatrices

%matplotlib notebook

In [39]:
df = pd.read_csv('previsao_de_renda.csv')

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [40]:
# 1)

y, X = dmatrices('np.log(renda) ~ idade + educacao + estado_civil', data=df, return_type='dataframe')
modelo = sm.OLS(y, X)
resultado = modelo.fit()

resultado.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.011
Model:,OLS,Adj. R-squared:,0.01
Method:,Least Squares,F-statistic:,18.6
Date:,"Sat, 06 May 2023",Prob (F-statistic):,3.23e-31
Time:,00:09:25,Log-Likelihood:,-19341.0
No. Observations:,15000,AIC:,38700.0
Df Residuals:,14990,BIC:,38780.0
Df Model:,9,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.1175,0.075,107.658,0.000,7.970,8.265
educacao[T.Pós graduação],-0.0482,0.186,-0.260,0.795,-0.412,0.315
educacao[T.Secundário],0.0250,0.069,0.361,0.718,-0.110,0.160
educacao[T.Superior completo],0.1470,0.070,2.113,0.035,0.011,0.283
educacao[T.Superior incompleto],-0.0184,0.078,-0.236,0.813,-0.171,0.134
estado_civil[T.Separado],-0.0862,0.031,-2.789,0.005,-0.147,-0.026
estado_civil[T.Solteiro],-0.1013,0.022,-4.508,0.000,-0.145,-0.057
estado_civil[T.União],-0.1200,0.028,-4.264,0.000,-0.175,-0.065
estado_civil[T.Viúvo],-0.2841,0.035,-8.113,0.000,-0.353,-0.215

0,1,2,3
Omnibus:,301.378,Durbin-Watson:,2.03
Prob(Omnibus):,0.0,Jarque-Bera (JB):,338.803
Skew:,0.313,Prob(JB):,2.69e-74
Kurtosis:,3.386,Cond. No.,1250.0


### Avaliação dos parâmetros

A partir dos parâmetros, podemos obter algumas conclusões, como:

- Os coeficientes de educação indicam ter efeito sobre a variável renda, como o de nível Superior Completo, cujo coeficiente estimado é de 0.1470, o que indica que, em média, as pessoas com educação superior completa tendem a ter um log(renda) 0.1470 unidades maior em comparação com a categoria de referência.
- O coeficiente estimado para estado civil Solteiro é -0.1013, o que indica que, em média, as pessoas solteiras tendem a ter um log(renda) 0.1013 unidades menor em comparação com a categoria de referência.
- O coeficiente estimado para a variável idade é 0.0015, o que indica que, em média, para cada aumento de uma unidade na idade, espera-se um aumento de log(renda) de 0.0015 unidades. Essa relação positiva sugere que a renda tende a aumentar ligeiramente à medida que a idade aumenta.

In [41]:
# 2)

# Removendo a variável menos significante
X = X.drop(columns='educacao[T.Pós graduação]')

model_updated = sm.OLS(y, X)
results_updated = model_updated.fit()

results_updated.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.011
Model:,OLS,Adj. R-squared:,0.011
Method:,Least Squares,F-statistic:,20.92
Date:,"Sat, 06 May 2023",Prob (F-statistic):,7.03e-32
Time:,00:09:30,Log-Likelihood:,-19341.0
No. Observations:,15000,AIC:,38700.0
Df Residuals:,14991,BIC:,38770.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.1108,0.071,114.551,0.000,7.972,8.250
educacao[T.Secundário],0.0315,0.064,0.490,0.624,-0.094,0.158
educacao[T.Superior completo],0.1536,0.065,2.371,0.018,0.027,0.281
educacao[T.Superior incompleto],-0.0118,0.074,-0.160,0.873,-0.156,0.133
estado_civil[T.Separado],-0.0862,0.031,-2.787,0.005,-0.147,-0.026
estado_civil[T.Solteiro],-0.1014,0.022,-4.514,0.000,-0.145,-0.057
estado_civil[T.União],-0.1199,0.028,-4.261,0.000,-0.175,-0.065
estado_civil[T.Viúvo],-0.2840,0.035,-8.112,0.000,-0.353,-0.215
idade,0.0015,0.001,2.168,0.030,0.000,0.003

0,1,2,3
Omnibus:,301.468,Durbin-Watson:,2.03
Prob(Omnibus):,0.0,Jarque-Bera (JB):,338.89
Skew:,0.314,Prob(JB):,2.5799999999999998e-74
Kurtosis:,3.386,Cond. No.,824.0


### Avaliação dos parâmetros

A partir da remoção da variável'educacao[T.Pós graduação]', podemos notar que o modelo sofreu algumas mudanças, como:

- A variável "educacao[T.Secundário]" que antes tinha um valor-p de 0.718, agora tem um valor-p de 0.624. Isso indica que essa variável continua não sendo estatisticamente significante.

- A variável "educacao[T.Superior completo]" que antes tinha um valor-p de 0.035, agora tem um valor-p de 0.018. Embora o valor-p tenha diminuído, ainda é relativamente alto, sugerindo que essa variável pode não ser estatisticamente significante.

- A variável "educacao[T.Superior incompleto]" que antes tinha um valor-p de 0.813, agora tem um valor-p de 0.873. O valor-p aumentou ainda mais, reforçando a falta de significância estatística dessa variável.

Essas mudanças indicam que a remoção da variável educacao[T.Pós graduação] no último modelo o tornou melhor para ser avaliado e pode ser mais adequado em termos de interpretação e significância estatística das variáveis.

In [42]:
# 3)

# Removendo a variável menos significante
X = X.drop(columns='educacao[T.Secundário]')

model_updated = sm.OLS(y, X)
results_updated = model_updated.fit()

results_updated.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.011
Model:,OLS,Adj. R-squared:,0.011
Method:,Least Squares,F-statistic:,23.88
Date:,"Sat, 06 May 2023",Prob (F-statistic):,1.55e-32
Time:,00:09:35,Log-Likelihood:,-19341.0
No. Observations:,15000,AIC:,38700.0
Df Residuals:,14992,BIC:,38760.0
Df Model:,7,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.1418,0.032,254.887,0.000,8.079,8.204
educacao[T.Superior completo],0.1227,0.015,7.993,0.000,0.093,0.153
educacao[T.Superior incompleto],-0.0427,0.038,-1.116,0.264,-0.118,0.032
estado_civil[T.Separado],-0.0861,0.031,-2.785,0.005,-0.147,-0.026
estado_civil[T.Solteiro],-0.1014,0.022,-4.512,0.000,-0.145,-0.057
estado_civil[T.União],-0.1199,0.028,-4.263,0.000,-0.175,-0.065
estado_civil[T.Viúvo],-0.2839,0.035,-8.109,0.000,-0.353,-0.215
idade,0.0015,0.001,2.163,0.031,0.000,0.003

0,1,2,3
Omnibus:,302.165,Durbin-Watson:,2.031
Prob(Omnibus):,0.0,Jarque-Bera (JB):,339.736
Skew:,0.314,Prob(JB):,1.6899999999999999e-74
Kurtosis:,3.386,Cond. No.,255.0


### Avaliação dos parâmetros

Comparando os dois modelos, pode-se observar que houve uma mudança na especificação do modelo ao remover a variável "educacao[T.Secundário]". O segundo modelo apresenta um valor maior para o F-statistic (23.88) em comparação ao primeiro modelo (20.92), indicando uma melhora na capacidade do modelo de explicar a variação na variável dependente.

Ao remover a variável "educacao[T.Secundário]", as demais variáveis do modelo não tiveram seus coeficientes significativamente afetados. A variável "educacao[T.Superior completo]" teve seu coeficiente reduzido de 0.1536 para 0.1227, mas ainda se mantém estatisticamente significativa.

Pode-se dizer que a remoção da variável "educacao[T.Secundário]" melhorou o modelo, uma vez que o valor do F-statistic aumentou. Isso indica que o modelo ajustado é estatisticamente mais robusto e melhor ajustado aos dados.

In [44]:
# 3)

# Removendo a variável menos significante
X = X.drop(columns='educacao[T.Superior incompleto]')

model_updated = sm.OLS(y, X)
results_updated = model_updated.fit()

results_updated.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.011
Model:,OLS,Adj. R-squared:,0.011
Method:,Least Squares,F-statistic:,27.65
Date:,"Sat, 06 May 2023",Prob (F-statistic):,5.14e-33
Time:,00:09:50,Log-Likelihood:,-19342.0
No. Observations:,15000,AIC:,38700.0
Df Residuals:,14993,BIC:,38750.0
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.1337,0.031,261.415,0.000,8.073,8.195
educacao[T.Superior completo],0.1257,0.015,8.307,0.000,0.096,0.155
estado_civil[T.Separado],-0.0857,0.031,-2.773,0.006,-0.146,-0.025
estado_civil[T.Solteiro],-0.1022,0.022,-4.551,0.000,-0.146,-0.058
estado_civil[T.União],-0.1201,0.028,-4.267,0.000,-0.175,-0.065
estado_civil[T.Viúvo],-0.2842,0.035,-8.118,0.000,-0.353,-0.216
idade,0.0016,0.001,2.382,0.017,0.000,0.003

0,1,2,3
Omnibus:,302.857,Durbin-Watson:,2.03
Prob(Omnibus):,0.0,Jarque-Bera (JB):,340.477
Skew:,0.314,Prob(JB):,1.17e-74
Kurtosis:,3.386,Cond. No.,229.0


### Avaliação dos parâmetros

No primeiro modelo:

- R-quadrado: 0.011
- Adj. R-quadrado: 0.010
- F-statistic: 18.60

No modelo final:

- R-quadrado: 0.011
- Adj. R-quadrado: 0.011
- F-statistic: 27.65


Analisando os ajustes nos modelos, vemos que o R-quadrado e o Adj. R-quadrado permaneceram praticamente iguais, o que indica que a remoção das variáveis menos significantes não afetou a capacidade do modelo em explicar a variação na variável dependente.

Considerando que o valor do F-statistic aumentou de 18.60 no primeiro modelo para 27.65 no modelo final, podemos concluir que este último parece ser melhor, pois possui maior significância estatística por meio da eliminação de variáveis insignificantes.