# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [1]:
import pandas as pd

In [7]:
import seaborn as sns
from seaborn import load_dataset
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [8]:
df = pd.read_csv('previsao_de_renda.csv')

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   index                  15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12466 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  mau                    15000 non-null  bool   
 15  re

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.

2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.

3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [10]:
#1

df.drop(['Unnamed: 0', 'data_ref', 'index', 'mau'], axis = 1, inplace = True)

df.head()

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,F,False,True,1,Assalariado,Secundário,Casado,Casa,36,3.575342,3.0,3369.24
1,M,True,True,0,Empresário,Secundário,Casado,Casa,42,0.860274,2.0,6096.14
2,M,True,True,2,Assalariado,Superior completo,Casado,Casa,31,8.065753,4.0,5658.98
3,F,True,False,0,Empresário,Secundário,Casado,Casa,50,1.208219,2.0,7246.69
4,M,False,False,0,Assalariado,Secundário,Casado,Casa,52,13.873973,2.0,4017.37


In [11]:
print(df['tipo_renda'].value_counts())
print(df['educacao'].value_counts())
print(df['estado_civil'].value_counts())
print(df['tipo_residencia'].value_counts())

Assalariado         7826
Empresário          3311
Pensionista         2543
Servidor público    1316
Bolsista               4
Name: tipo_renda, dtype: int64
Secundário             8927
Superior completo      5262
Superior incompleto     599
Primário                193
Pós graduação            19
Name: educacao, dtype: int64
Casado      10550
Solteiro     1767
União        1168
Separado      838
Viúvo         677
Name: estado_civil, dtype: int64
Casa             13566
Com os pais        637
Governamental      443
Aluguel            184
Estúdio            107
Comunitário         63
Name: tipo_residencia, dtype: int64


In [20]:
y_a, X_a = patsy.dmatrices('''np.log(renda) ~ C(sexo) 
                    + C(posse_de_veiculo) 
                    + C(posse_de_imovel)
                    + qtd_filhos 
                    + C(tipo_renda) 
                    + C(educacao, Treatment(2)) 
                    + C(estado_civil) 
                    + C(tipo_residencia, Treatment(1)) 
                    + idade
                    + tempo_emprego
                    + qt_pessoas_residencia 
                    + 1''', df)

Modelo_A = sm.OLS(y_a, X_a).fit()
Modelo_A.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.242
Model:,OLS,Adj. R-squared:,0.24
Method:,Least Squares,F-statistic:,165.3
Date:,"Mon, 13 Mar 2023",Prob (F-statistic):,0.0
Time:,11:16:40,Log-Likelihood:,-13204.0
No. Observations:,12466,AIC:,26460.0
Df Residuals:,12441,BIC:,26640.0
Df Model:,24,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.2393,0.258,28.084,0.000,6.734,7.745
C(sexo)[T.M],0.4813,0.014,33.673,0.000,0.453,0.509
C(posse_de_veiculo)[T.True],-0.0012,0.014,-0.087,0.931,-0.028,0.026
C(posse_de_imovel)[T.True],0.0849,0.014,6.275,0.000,0.058,0.111
C(tipo_renda)[T.Bolsista],-0.0493,0.350,-0.141,0.888,-0.735,0.636
C(tipo_renda)[T.Empresário],0.1786,0.015,12.209,0.000,0.150,0.207
C(tipo_renda)[T.Pensionista],0.3784,0.233,1.623,0.105,-0.079,0.835
C(tipo_renda)[T.Servidor público],0.0950,0.021,4.485,0.000,0.053,0.136
"C(educacao, Treatment(2))[T.Primário]",-0.0164,0.071,-0.232,0.817,-0.156,0.123

0,1,2,3
Omnibus:,1.155,Durbin-Watson:,2.015
Prob(Omnibus):,0.561,Jarque-Bera (JB):,1.126
Skew:,-0.011,Prob(JB):,0.569
Kurtosis:,3.041,Cond. No.,2620.0


In [28]:
#2  Remova a variável menos significante e analise:
        #Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
        #Observe os parâmetros e veja se algum se alterou muito.
        
        #Decidi retirar 'estado_civil'
        
y_b, X_b = patsy.dmatrices('''np.log(renda) ~ C(sexo) 
                    + C(posse_de_veiculo) 
                    + C(posse_de_imovel)
                    + qtd_filhos 
                    + C(tipo_renda) 
                    + C(educacao, Treatment(2)) 
                    + C(tipo_residencia, Treatment(1)) 
                    + idade
                    + tempo_emprego
                    + qt_pessoas_residencia 
                    + 1''', df)

Modelo_B = sm.OLS(y_a, X_a).fit()
Modelo_B.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.241
Model:,OLS,Adj. R-squared:,0.24
Method:,Least Squares,F-statistic:,208.1
Date:,"Mon, 13 Mar 2023",Prob (F-statistic):,0.0
Time:,14:41:00,Log-Likelihood:,-13210.0
No. Observations:,12466,AIC:,26460.0
Df Residuals:,12446,BIC:,26610.0
Df Model:,19,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.2182,0.258,28.009,0.000,6.713,7.723
C(sexo)[T.M],0.4802,0.014,33.700,0.000,0.452,0.508
C(posse_de_veiculo)[T.True],-0.0016,0.014,-0.116,0.908,-0.029,0.025
C(posse_de_imovel)[T.True],0.0937,0.013,7.075,0.000,0.068,0.120
C(tipo_renda)[T.Bolsista],-0.0498,0.350,-0.142,0.887,-0.735,0.636
C(tipo_renda)[T.Empresário],0.1787,0.015,12.220,0.000,0.150,0.207
C(tipo_renda)[T.Pensionista],0.3863,0.233,1.656,0.098,-0.071,0.843
C(tipo_renda)[T.Servidor público],0.0922,0.021,4.361,0.000,0.051,0.134
"C(educacao, Treatment(2))[T.Primário]",-0.0203,0.071,-0.286,0.775,-0.159,0.119

0,1,2,3
Omnibus:,1.073,Durbin-Watson:,2.015
Prob(Omnibus):,0.585,Jarque-Bera (JB):,1.042
Skew:,-0.012,Prob(JB):,0.594
Kurtosis:,3.038,Cond. No.,2620.0


A variável 'estado_civil' foi retirada porque mostrava os valores de P >0.05 em todos os exemplos. Entretanto, o valor de R² teve uma alteração pouco significativa, inclusive tento o valor de R² - ajustado igual.

**#1 Avalie os parâmetros e veja se parecem fazer sentido prático.**

Aumento da renda com P-Value < 0.05:

Coef positivo:
- posse_de_imovel True
- tipo_renda = empresário ou servidor público
- educacao = Pós graduação ou superior completo
- idade
- tempo_emprego 


As demais variáveis apresentam ou o Coef negativo ou P-value > 0.05

In [30]:
#3 Siga removendo as variáveis menos significantes, sempre que o p-value for menor que 5%. 
#Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.

    #Levando em consideração variáveis que possuem P >0.05

    #Removendo a variável 'educacao', 'posse_de_veiculo'  'tipo_renda', 'tipo_residencia', 'qt_pessoas_residencia', ' qtd_filhos'

y_c, X_c = patsy.dmatrices('''np.log(renda) ~ C(sexo) 
                    + C(posse_de_imovel)
                    + idade
                    + tempo_emprego
                    + 1''', df)

Modelo_C = sm.OLS(y_c,X_c).fit()
Modelo_C.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.226
Model:,OLS,Adj. R-squared:,0.225
Method:,Least Squares,F-statistic:,907.7
Date:,"Mon, 13 Mar 2023",Prob (F-statistic):,0.0
Time:,14:46:39,Log-Likelihood:,-13335.0
No. Observations:,12466,AIC:,26680.0
Df Residuals:,12461,BIC:,26720.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.3732,0.030,243.856,0.000,7.314,7.432
C(sexo)[T.M],0.4742,0.013,35.424,0.000,0.448,0.500
C(posse_de_imovel)[T.True],0.1018,0.013,7.649,0.000,0.076,0.128
idade,0.0043,0.001,5.958,0.000,0.003,0.006
tempo_emprego,0.0479,0.001,48.283,0.000,0.046,0.050

0,1,2,3
Omnibus:,1.296,Durbin-Watson:,2.008
Prob(Omnibus):,0.523,Jarque-Bera (JB):,1.272
Skew:,0.011,Prob(JB):,0.529
Kurtosis:,3.045,Cond. No.,207.0





**Modelo inicial**
R² = 0.242

R² - ajustado = 0.240

AIC = 2.646e+04

Modelo após retirar todas variáveis com P >0.05:

Sobraram 4 variáveis, todas com coef positivo e P <0.05 :

Dados do modelo:
R² = 0.226

R² - ajustado = 0.225

AIC =  	2.668e+04.

**Conclusão:** 
A retirada de diversas variáveis teve o objetivo de reduzir o overfitting. 
Apesar dos valores de R² e R² - ajustado diminuirem e o AIC ter aumentado, houveram impactos mínimos.
O modelo é portanto melhor que o inicial, porque nos leva a uma visão mais concreta possível sem levar a conclusões errôneas por variáveis que não eram estatisticamente relevantes.
