# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [213]:
import pandas as pd
import patsy
from patsy import dmatrix
import statsmodels.api as sm

In [214]:
df = pd.read_csv('previsao_de_renda.csv')

In [215]:
df["qt_pessoas_residencia"] = df["qt_pessoas_residencia"].astype(int)
df["tempo_emprego"] = df["tempo_emprego"].fillna(0)
df["tempo_emprego"] = df["tempo_emprego"].astype(int)
df.head()

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6,1,8060.34
1,1,2015-01-01,9968,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7,2,1852.15
2,2,2015-01-01,4312,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0,2,2253.89
3,3,2015-01-01,10639,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4,3,6600.77
4,4,2015-01-01,7064,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4,1,6475.97


1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [216]:
max_qtd_filhos = df["qtd_filhos"].value_counts().idxmax()
max_idade = df["idade"].value_counts().idxmax()
max_tempo_emprego = df["tempo_emprego"].value_counts().idxmax()
max_qt_pessoas_residencia = df["qt_pessoas_residencia"].value_counts().idxmax()
max_qtd_filhos, max_idade, max_tempo_emprego, max_qt_pessoas_residencia

(0, 40, 0, 2)

In [217]:
# variaveis qualitativas como dummies
y, x = patsy.dmatrices(f"""renda ~ C(idade, Treatment({max_idade}))
                        + C(qtd_filhos, Treatment({max_qtd_filhos}))
                        + C(tempo_emprego, Treatment({max_tempo_emprego}))
                        + C(qt_pessoas_residencia, Treatment({max_qt_pessoas_residencia}))
                        + sexo + educacao""", data = df)

In [218]:
sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.3
Model:,OLS,Adj. R-squared:,0.295
Method:,Least Squares,F-statistic:,61.34
Date:,"Sun, 12 Nov 2023",Prob (F-statistic):,0.0
Time:,22:43:18,Log-Likelihood:,-153910.0
No. Observations:,15000,AIC:,308000.0
Df Residuals:,14895,BIC:,308800.0
Df Model:,104,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,993.4636,648.167,1.533,0.125,-277.023,2263.950
"C(idade, Treatment(40))[T.22]",-252.0405,1824.321,-0.138,0.890,-3827.935,3323.854
"C(idade, Treatment(40))[T.23]",-2118.0898,1400.333,-1.513,0.130,-4862.915,626.735
"C(idade, Treatment(40))[T.24]",-1807.7050,768.826,-2.351,0.019,-3314.698,-300.712
"C(idade, Treatment(40))[T.25]",-1474.5933,682.234,-2.161,0.031,-2811.856,-137.331
"C(idade, Treatment(40))[T.26]",-480.1998,608.194,-0.790,0.430,-1672.336,711.936
"C(idade, Treatment(40))[T.27]",-697.1013,454.125,-1.535,0.125,-1587.241,193.039
"C(idade, Treatment(40))[T.28]",-681.7077,460.768,-1.480,0.139,-1584.869,221.454
"C(idade, Treatment(40))[T.29]",-196.7231,472.408,-0.416,0.677,-1122.702,729.256

0,1,2,3
Omnibus:,20469.44,Durbin-Watson:,2.027
Prob(Omnibus):,0.0,Jarque-Bera (JB):,11877609.524
Skew:,7.549,Prob(JB):,0.0
Kurtosis:,140.026,Cond. No.,1.35e+16


In [219]:
df = df[df["qt_pessoas_residencia"] >= 5]
max_qtd_filhos = df["qtd_filhos"].value_counts().idxmax()
max_idade = df["idade"].value_counts().idxmax()
max_tempo_emprego = df["tempo_emprego"].value_counts().idxmax()
max_qt_pessoas_residencia = df["qt_pessoas_residencia"].value_counts().idxmax()
max_qtd_filhos, max_idade, max_tempo_emprego, max_qt_pessoas_residencia

(3, 38, 4, 5)

In [220]:
y, x = patsy.dmatrices(f"""renda ~ C(idade, Treatment({max_idade}))
                        + C(qtd_filhos, Treatment({max_qtd_filhos}))
                        + C(qt_pessoas_residencia, Treatment({max_qt_pessoas_residencia}))
                        + educacao""", data = df)

sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.258
Model:,OLS,Adj. R-squared:,0.149
Method:,Least Squares,F-statistic:,2.374
Date:,"Sun, 12 Nov 2023",Prob (F-statistic):,0.000495
Time:,22:43:18,Log-Likelihood:,-2047.1
No. Observations:,205,AIC:,4148.0
Df Residuals:,178,BIC:,4238.0
Df Model:,26,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2514.7241,1125.220,2.235,0.027,294.236,4735.212
"C(idade, Treatment(38))[T.27]",4150.7294,2086.668,1.989,0.048,32.939,8268.520
"C(idade, Treatment(38))[T.28]",-1656.3586,4134.730,-0.401,0.689,-9815.755,6503.038
"C(idade, Treatment(38))[T.29]",-1265.1356,3410.686,-0.371,0.711,-7995.718,5465.447
"C(idade, Treatment(38))[T.30]",2248.9170,2731.492,0.823,0.411,-3141.356,7639.190
"C(idade, Treatment(38))[T.31]",2805.9093,2273.215,1.234,0.219,-1680.010,7291.829
"C(idade, Treatment(38))[T.32]",1388.9936,4110.286,0.338,0.736,-6722.166,9500.153
"C(idade, Treatment(38))[T.33]",3613.3114,1696.033,2.130,0.035,266.392,6960.231
"C(idade, Treatment(38))[T.34]",1084.0132,1979.952,0.547,0.585,-2823.187,4991.213

0,1,2,3
Omnibus:,155.45,Durbin-Watson:,1.944
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2388.227
Skew:,2.715,Prob(JB):,0.0
Kurtosis:,18.815,Cond. No.,1.08e+16


2. 
- O modelo melhorou, o AIC	foi de 3.100e+05 para 4148, ou seja o modelo com AIC de 4147 é preferível em termos de ajuste aos dados e complexidade em comparação com o modelo associado ao valor 3.100e+05.

- Os valores de qt_pessoas_residencia sofreram alterações com as adaptações do modelo, anteriormente seus P>|t| eram maiores do que no modelo ajustado.

antes: 
| Variável                                     | Coeficiente | Erro Padrão | Estatística T | Valor P | Intervalo de Confiança (95%) |
|---------------------------------------------|-------------|-------------|---------------|---------|------------------------------|
| C(qt_pessoas_residencia, Treatment(2))[T.1]  | -82.1195    | 159.116     | -0.516        | 0.606   | -394.007 a 229.768            |
| C(qt_pessoas_residencia, Treatment(2))[T.3]  | 173.6366    | 329.655     | 0.527         | 0.598   | -472.528 a 819.801            |
| C(qt_pessoas_residencia, Treatment(2))[T.4]  | 778.2655    | 910.267     | 0.855         | 0.393   | -1005.969 a 2562.500          |
| C(qt_pessoas_residencia, Treatment(2))[T.5]  | -1213.5376  | 3030.311    | -0.400        | 0.689   | -7153.321 a 4726.246          |
| C(qt_pessoas_residencia, Treatment(2))[T.6]  | 1589.2921   | 3910.218    | 0.406         | 0.684   | -6075.218 a 9253.802          |
| C(qt_pessoas_residencia, Treatment(2))[T.7]  | -1809.5989  | 6284.173    | -0.288        | 0.773   | -1.41e+04 a 1.05e+04         |
| C(qt_pessoas_residencia, Treatment(2))[T.9]  | -156.6511   | 1565.004    | -0.100        | 0.920   | -3224.253 a 2910.951         |
| C(qt_pessoas_residencia, Treatment(2))[T.15] | -2661.3827  | 2464.099    | -1.080        | 0.280   | -7491.320 a 2168.555         |


depois:
| Variável                                    | Coeficiente | Erro Padrão | Estatística T | Valor P | Intervalo de Confiança (95%) |
|--------------------------------------------|-------------|-------------|---------------|---------|------------------------------|
| C(qt_pessoas_residencia, Treatment(5))[T.6] | -6934.1215  | 3356.963    | -2.066        | 0.040   | -1.36e+04 a -309.555          |
| C(qt_pessoas_residencia, Treatment(5))[T.7] | 9145.9757   | 5446.225    | 1.679         | 0.095   | -1601.502 a 1.99e+04          |
| C(qt_pessoas_residencia, Treatment(5))[T.9] | -2674.1915  | 1945.393    | -1.375        | 0.171   | -6513.194 a 1164.811          |
| C(qt_pessoas_residencia, Treatment(5))[T.15]| 110.9270    | 1380.940    | 0.080         | 0.936   | -2614.193 a 2836.047          |



In [221]:
model = sm.OLS(y, x).fit()


In [222]:
idade_remover = [27, 30, 31, 33, 35, 36, 37, 39, 42, 43, 45, 47]
df = df[~df['idade'].isin(idade_remover)]

max_qtd_filhos = df["qtd_filhos"].value_counts().idxmax()
max_idade = df["idade"].value_counts().idxmax()
max_tempo_emprego = df["tempo_emprego"].value_counts().idxmax()
max_qt_pessoas_residencia = df["qt_pessoas_residencia"].value_counts().idxmax()
max_qtd_filhos, max_idade, max_tempo_emprego, max_qt_pessoas_residencia

y, x = patsy.dmatrices(f"""renda ~ C(idade, Treatment({max_idade}))
                        + C(qtd_filhos, Treatment({max_qtd_filhos}))
                        + C(qt_pessoas_residencia, Treatment({max_qt_pessoas_residencia}))
                        + educacao""", data = df)

sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.161
Model:,OLS,Adj. R-squared:,-0.001
Method:,Least Squares,F-statistic:,0.9934
Date:,"Sun, 12 Nov 2023",Prob (F-statistic):,0.463
Time:,22:43:18,Log-Likelihood:,-626.5
No. Observations:,69,AIC:,1277.0
Df Residuals:,57,BIC:,1304.0
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3106.6314,537.067,5.784,0.000,2031.173,4182.089
"C(idade, Treatment(38))[T.28]",-1268.0199,1727.124,-0.734,0.466,-4726.527,2190.487
"C(idade, Treatment(38))[T.29]",-1530.2943,1417.210,-1.080,0.285,-4368.209,1307.620
"C(idade, Treatment(38))[T.32]",1287.2093,1703.351,0.756,0.453,-2123.692,4698.111
"C(idade, Treatment(38))[T.34]",732.7217,878.077,0.834,0.408,-1025.596,2491.040
"C(idade, Treatment(38))[T.40]",-2416.3876,1417.210,-1.705,0.094,-5254.302,421.527
"C(idade, Treatment(38))[T.41]",1243.8904,850.109,1.463,0.149,-458.423,2946.204
"C(idade, Treatment(38))[T.44]",721.4693,1703.351,0.424,0.673,-2689.432,4132.371
"C(idade, Treatment(38))[T.48]",-86.3755,579.006,-0.149,0.882,-1245.816,1073.065

0,1,2,3
Omnibus:,48.336,Durbin-Watson:,2.084
Prob(Omnibus):,0.0,Jarque-Bera (JB):,158.224
Skew:,2.223,Prob(JB):,4.39e-35
Kurtosis:,8.939,Cond. No.,1.04e+18


In [223]:
idade_remover = [28, 29, 32, 34, 40, 41]
df = df[~df['idade'].isin(idade_remover)]

max_qtd_filhos = df["qtd_filhos"].value_counts().idxmax()
max_idade = df["idade"].value_counts().idxmax()
max_tempo_emprego = df["tempo_emprego"].value_counts().idxmax()
max_qt_pessoas_residencia = df["qt_pessoas_residencia"].value_counts().idxmax()
max_qtd_filhos, max_idade, max_tempo_emprego, max_qt_pessoas_residencia

y, x = patsy.dmatrices(f"""renda ~ C(idade, Treatment({max_idade}))
                        + C(qtd_filhos, Treatment({max_qtd_filhos}))
                        + C(qt_pessoas_residencia, Treatment({max_qt_pessoas_residencia}))
                        + educacao""", data = df)

sm.OLS(y, x).fit().summary()

0,1,2,3
Dep. Variable:,renda,R-squared:,0.018
Model:,OLS,Adj. R-squared:,-0.109
Method:,Least Squares,F-statistic:,0.1431
Date:,"Sun, 12 Nov 2023",Prob (F-statistic):,0.965
Time:,22:45:00,Log-Likelihood:,-328.1
No. Observations:,36,AIC:,666.2
Df Residuals:,31,BIC:,674.1
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3249.5101,622.056,5.224,0.000,1980.819,4518.201
"C(idade, Treatment(38))[T.44]",683.5279,1727.735,0.396,0.695,-2840.210,4207.266
"C(idade, Treatment(38))[T.48]",-134.0017,595.315,-0.225,0.823,-1348.155,1080.151
"C(qtd_filhos, Treatment(3))[T.4]",-403.3151,1223.953,-0.330,0.744,-2899.584,2092.954
"C(qtd_filhos, Treatment(3))[T.14]",-134.0017,595.315,-0.225,0.823,-1348.155,1080.151
"C(qt_pessoas_residencia, Treatment(5))[T.6]",-403.3151,1223.953,-0.330,0.744,-2899.584,2092.954
"C(qt_pessoas_residencia, Treatment(5))[T.15]",-134.0017,595.315,-0.225,0.823,-1348.155,1080.151
educacao[T.Superior completo],-480.2561,827.925,-0.580,0.566,-2168.820,1208.308

0,1,2,3
Omnibus:,43.026,Durbin-Watson:,2.327
Prob(Omnibus):,0.0,Jarque-Bera (JB):,150.641
Skew:,2.815,Prob(JB):,1.9400000000000002e-33
Kurtosis:,11.29,Cond. No.,9.82e+18


3. O modelo parece estar melhor considerando o AIC que está em 666.2 mesmo o R-squared sendo 0.018