# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [64]:
import patsy
import pandas   as pd
import seaborn  as sns
import numpy    as np
import statsmodels.api as sm
import statsmodels.formula.api as smf

import matplotlib.pyplot as plt

from seaborn import load_dataset

In [65]:
df = pd.read_csv('/content/previsao_de_renda.csv')

In [66]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

In [67]:
# Visando otimizar o tamanho do dataframe e o valor de memória ocupado, ire retirar algumas variáveis desnecessárias para as analises

df_otimizado = df.drop(columns = ['Unnamed: 0', 'data_ref', 'id_cliente'])
df_otimizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   15000 non-null  object 
 1   posse_de_veiculo       15000 non-null  bool   
 2   posse_de_imovel        15000 non-null  bool   
 3   qtd_filhos             15000 non-null  int64  
 4   tipo_renda             15000 non-null  object 
 5   educacao               15000 non-null  object 
 6   estado_civil           15000 non-null  object 
 7   tipo_residencia        15000 non-null  object 
 8   idade                  15000 non-null  int64  
 9   tempo_emprego          12427 non-null  float64
 10  qt_pessoas_residencia  15000 non-null  float64
 11  renda                  15000 non-null  float64
dtypes: bool(2), float64(3), int64(2), object(5)
memory usage: 1.2+ MB


1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.
    

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.

In [68]:
# Modelo para prever log(renda)
modelo_renda = smf.ols('np.log(renda) ~ sexo + posse_de_imovel + qtd_filhos + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego', data = df_otimizado).fit()
print(modelo_renda.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.355
Method:                 Least Squares   F-statistic:                     312.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:00   Log-Likelihood:                -13576.
No. Observations:               12427   AIC:                         2.720e+04
Df Residuals:                   12404   BIC:                         2.737e+04
Df Model:                          22                                         
Covariance Type:            nonrobust                                         
                                       coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------------
Intercep

Utilizando os recursos do Patsy, coloque as variáveis qualitativas como dummies.

In [69]:
# Modelo contendo as variáveis dummies
modelo_renda_v1 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda) + C(educacao) + C(estado_civil) + C(tipo_residencia) + idade + tempo_emprego + qt_pessoas_residencia', data = df_otimizado).fit()
print(modelo_renda_v1.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     287.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:02   Log-Likelihood:                -13568.
No. Observations:               12427   AIC:                         2.719e+04
Df Residuals:                   12402   BIC:                         2.737e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                          coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------------
In

Mantenha sempre a categoria mais frequente como casela de referência

In [70]:
# Sabendo que os coeficientes mais proximos do zero são os que indicam categorias mais frequentes, segue o modelo com cada uma das categorias mais frequentes.
modelo_renda_v2 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Superior completo")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego + qt_pessoas_residencia', data = df_otimizado).fit()
print(modelo_renda_v2.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     287.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:02   Log-Likelihood:                -13568.
No. Observations:               12427   AIC:                         2.719e+04
Df Residuals:                   12402   BIC:                         2.737e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                                                         coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------

Avalie os parâmetros e veja se parecem fazer sentido prático.

Avaliando os parâmetros de um por vez é possível observar que:
*   Variável "tipo_renda": Utilizando a casela de referência "Servidor público" é possível observar que apareceu uma variável significativa "Assalariado" e a varíavel "Empresário" continua significativa, porém as outras varíaveis continuam sem ser significativas.
*   Variável "educacao": Utilizando a casela de referência "Superior completo" é possível observar que apareceu uma variável não significativa "Primário". Foi possivel observar que as variáveis "Secundário" e "Superior incompleto" se tornaram significativas.
*   Variável "estado_civil": Utilizando a casela de referência "Solteiro" é possível observar que apareceu uma variável significativa "Casado". É possível observar que somente a variável "Separado" não se tornou significativa e a variável "União"se tornou significativa. As demais, continuaram significativas.
*   Variável "tipo_residencia": Utilizando a casela de referência "Estúdio" é possível observar que apareceu uma não variável significativa "Aluguel". E todas as variáveis continuam não significativas.







2. Remova a variável menos significante e analise:

Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
Observe os parâmetros e veja se algum se alterou muito.

In [71]:
# Como podemos observar nos parâmetros, a variável menos significante é a "Pós graduação" dentro do campo "educacao". Segue o novo modelo retirando ela
df_v1 = df_otimizado[df_otimizado['educacao'] != 'Pós graduação']

modelo_renda_v3 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego + qt_pessoas_residencia', data = df_v1).fit()
print(modelo_renda_v3.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.358
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     299.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:08   Log-Likelihood:                -13545.
No. Observations:               12401   AIC:                         2.714e+04
Df Residuals:                   12377   BIC:                         2.732e+04
Df Model:                          23                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

Com a retirada da variável "Pós graduação", do campo "educacao", é possível observar que não houveram muitas variações no p-value das variáveis. Somente nas variáveis presentes no campo "educacao". Somente "Superior completo" se manteve significante.


3. Siga removendo as variáveis menos significantes, sempre que o p-value for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.

In [72]:
# Segurei removendo as variáveis menos significantes, na ordem decresente dos p-values
# Remoção da variável "Primário", presente no campo "educacao"
df_v2 = df_v1[df_v1['educacao'] != 'Primário']

modelo_renda_v4 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego', data = df_v2).fit()
print(modelo_renda_v4.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     340.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:09   Log-Likelihood:                -13452.
No. Observations:               12298   AIC:                         2.695e+04
Df Residuals:                   12277   BIC:                         2.710e+04
Df Model:                          20                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [73]:
# Irei retirar o valor "União" da variável "estado_civil"
df_v3 = df_v2[df_v2['estado_civil'] != 'União']

modelo_renda_v5 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego', data = df_v3).fit()
print(modelo_renda_v5.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.361
Model:                            OLS   Adj. R-squared:                  0.360
Method:                 Least Squares   F-statistic:                     337.6
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:10   Log-Likelihood:                -12456.
No. Observations:               11385   AIC:                         2.495e+04
Df Residuals:                   11365   BIC:                         2.510e+04
Df Model:                          19                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [74]:
# Irei retirar o valor "Aluguel" da variável "tipo_residencia"
df_v4 = df_v3[df_v3['tipo_residencia'] != 'Aluguel']

modelo_renda_v6 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego', data = df_v4).fit()
print(modelo_renda_v6.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.362
Model:                            OLS   Adj. R-squared:                  0.361
Method:                 Least Squares   F-statistic:                     352.9
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:26:11   Log-Likelihood:                -12264.
No. Observations:               11218   AIC:                         2.457e+04
Df Residuals:                   11199   BIC:                         2.470e+04
Df Model:                          18                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [81]:
# Irei retirar o valor "Bolsista" da variável "tipo_renda"
df_v5 = df_v4[df_v4['tipo_renda'] != 'Bolsista']

modelo_renda_v7 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + C(tipo_residencia, Treatment("Estúdio")) + idade + tempo_emprego', data = df_v5).fit()
print(modelo_renda_v7.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.362
Model:                            OLS   Adj. R-squared:                  0.361
Method:                 Least Squares   F-statistic:                     373.4
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:29:40   Log-Likelihood:                -12258.
No. Observations:               11209   AIC:                         2.455e+04
Df Residuals:                   11191   BIC:                         2.468e+04
Df Model:                          17                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [89]:
# Irei retirar a variável "tipo_residencia", pois nenhum dos p-values são significativos. E ao retirar uma por uma, houveram muitas distorções nas outras variáveis.

modelo_renda_v8 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + idade + tempo_emprego', data = df_v5).fit()
print(modelo_renda_v8.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.362
Model:                            OLS   Adj. R-squared:                  0.361
Method:                 Least Squares   F-statistic:                     488.2
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:39:09   Log-Likelihood:                -12259.
No. Observations:               11209   AIC:                         2.455e+04
Df Residuals:                   11195   BIC:                         2.465e+04
Df Model:                          13                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [91]:
# Irei retirar o valor "Superior incompleto" da variável "educacao"
df_v6 = df_v5[df_v5['educacao'] != 'Superior incompleto']

modelo_renda_v9 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + idade + tempo_emprego', data = df_v6).fit()
print(modelo_renda_v9.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.364
Model:                            OLS   Adj. R-squared:                  0.363
Method:                 Least Squares   F-statistic:                     509.6
Date:                Wed, 05 Jul 2023   Prob (F-statistic):               0.00
Time:                        00:40:02   Log-Likelihood:                -11751.
No. Observations:               10716   AIC:                         2.353e+04
Df Residuals:                   10703   BIC:                         2.362e+04
Df Model:                          12                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [93]:
# Irei retirar o valor "Casado" da variável "estado_civil"
df_v7 = df_v6[df_v6['estado_civil'] != 'Casado']

modelo_renda_v10 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + idade + tempo_emprego', data = df_v7).fit()
print(modelo_renda_v10.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.331
Model:                            OLS   Adj. R-squared:                  0.328
Method:                 Least Squares   F-statistic:                     118.5
Date:                Wed, 05 Jul 2023   Prob (F-statistic):          9.37e-201
Time:                        00:44:45   Log-Likelihood:                -2583.4
No. Observations:                2405   AIC:                             5189.
Df Residuals:                    2394   BIC:                             5253.
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [94]:
# Irei retirar o valor "Assalariado" da variável "tipo_renda"
df_v8 = df_v7[df_v7['tipo_renda'] != 'Assalariado']

modelo_renda_v11 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Solteiro")) + idade + tempo_emprego', data = df_v8).fit()
print(modelo_renda_v11.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.299
Model:                            OLS   Adj. R-squared:                  0.292
Method:                 Least Squares   F-statistic:                     46.04
Date:                Wed, 05 Jul 2023   Prob (F-statistic):           3.69e-69
Time:                        01:09:53   Log-Likelihood:                -1092.5
No. Observations:                 982   AIC:                             2205.
Df Residuals:                     972   BIC:                             2254.
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [96]:
# Irei retirar a variável "estado_civil"

modelo_renda_v12 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + idade + tempo_emprego', data = df_v8).fit()
print(modelo_renda_v12.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.296
Model:                            OLS   Adj. R-squared:                  0.291
Method:                 Least Squares   F-statistic:                     58.44
Date:                Wed, 05 Jul 2023   Prob (F-statistic):           5.27e-70
Time:                        01:17:58   Log-Likelihood:                -1094.7
No. Observations:                 982   AIC:                             2205.
Df Residuals:                     974   BIC:                             2244.
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [97]:
# Irei retirar a variável "idade"

modelo_renda_v13 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + C(educacao, Treatment("Secundário")) + tempo_emprego', data = df_v8).fit()
print(modelo_renda_v13.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.296
Model:                            OLS   Adj. R-squared:                  0.291
Method:                 Least Squares   F-statistic:                     68.18
Date:                Wed, 05 Jul 2023   Prob (F-statistic):           7.04e-71
Time:                        01:18:21   Log-Likelihood:                -1094.8
No. Observations:                 982   AIC:                             2204.
Df Residuals:                     975   BIC:                             2238.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [99]:
# Irei retirar a variável "educacao"

modelo_renda_v14 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + tempo_emprego', data = df_v8).fit()
print(modelo_renda_v14.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.294
Model:                            OLS   Adj. R-squared:                  0.291
Method:                 Least Squares   F-statistic:                     81.41
Date:                Wed, 05 Jul 2023   Prob (F-statistic):           1.74e-71
Time:                        01:19:59   Log-Likelihood:                -1095.7
No. Observations:                 982   AIC:                             2203.
Df Residuals:                     976   BIC:                             2233.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                                                                  coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------

In [100]:
# Irei retirar o valor "Pensionista" da variável "tipo_renda"
df_v9 = df_v8[df_v8['tipo_renda'] != 'Pensionista']

modelo_renda_v14 = smf.ols('np.log(renda) ~ C(sexo) + posse_de_imovel + C(tipo_renda, Treatment("Servidor público")) + tempo_emprego', data = df_v9).fit()
print(modelo_renda_v14.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.293
Model:                            OLS   Adj. R-squared:                  0.290
Method:                 Least Squares   F-statistic:                     100.3
Date:                Wed, 05 Jul 2023   Prob (F-statistic):           1.85e-71
Time:                        01:21:45   Log-Likelihood:                -1091.0
No. Observations:                 975   AIC:                             2192.
Df Residuals:                     970   BIC:                             2216.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                                                                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------

O valor do R² diminuiu em relação do modelo inicial, porém houve uma redução muito grande no valor do AIC. Indicando uma melhor relação entre o ajuste e parcimônia do modelo.