# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [2]:
# Importando as bibliotecas que irei usar.

import pandas as pd
import numpy as np
from seaborn import load_dataset
import seaborn as sns
import matplotlib.pyplot as plt

import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [3]:
df = pd.read_csv('previsao_de_renda.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [5]:
#Vamos realizar antes de tudo a limpeza do banco de dados.
#Devido a grande extensao da base, irei remover as linhas com dados faltantes.

df = df.dropna()

#Removendo linhas duplicadas.

df = df.drop_duplicates()

#Resetando o index.

df = df.reset_index()

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12427 entries, 0 to 12426
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   index                  12427 non-null  int64  
 1   Unnamed: 0             12427 non-null  int64  
 2   data_ref               12427 non-null  object 
 3   id_cliente             12427 non-null  int64  
 4   sexo                   12427 non-null  object 
 5   posse_de_veiculo       12427 non-null  bool   
 6   posse_de_imovel        12427 non-null  bool   
 7   qtd_filhos             12427 non-null  int64  
 8   tipo_renda             12427 non-null  object 
 9   educacao               12427 non-null  object 
 10  estado_civil           12427 non-null  object 
 11  tipo_residencia        12427 non-null  object 
 12  idade                  12427 non-null  int64  
 13  tempo_emprego          12427 non-null  float64
 14  qt_pessoas_residencia  12427 non-null  float64
 15  re

In [11]:
#Analisando a frequência das categorias em cada variável:

for coluna in df.columns[3:]:
    print(coluna, '\n', df[coluna].value_counts(), '\n')

id_cliente 
 id_cliente
8635     6
9948     6
9351     6
5573     6
6356     6
        ..
7969     1
6978     1
13650    1
9869     1
12939    1
Name: count, Length: 8161, dtype: int64 

sexo 
 sexo
F    7901
M    4526
Name: count, dtype: int64 

posse_de_veiculo 
 posse_de_veiculo
False    7160
True     5267
Name: count, dtype: int64 

posse_de_imovel 
 posse_de_imovel
True     8116
False    4311
Name: count, dtype: int64 

qtd_filhos 
 qtd_filhos
0     7887
1     2973
2     1358
3      183
4       17
7        5
14       2
5        2
Name: count, dtype: int64 

tipo_renda 
 tipo_renda
Assalariado         7633
Empresário          3508
Servidor público    1268
Bolsista               9
Pensionista            9
Name: count, dtype: int64 

educacao 
 educacao
Secundário             7045
Superior completo      4695
Superior incompleto     558
Primário                103
Pós graduação            26
Name: count, dtype: int64 

estado_civil 
 estado_civil
Casado      8897
Solteiro    1543
Uniã

In [7]:
#Com a extensao da base é muito grande, vou fazer a modelagem apenas com a segunda parte.
#Primeiro vamos fazer uma cópia da base de dados.

df_1 = df.copy()

#Depois, selecionando a segunda parte da base de dados.

df_1 = df_1.iloc[6213:,:]

In [8]:
#Base de dados pronta, inicio a modelagem o patsy.
#As variáveis sexo, tipo_renda, educacao, estado_civil e tipo_residencia são variáveis categóricas.
#A casela de referência é a categoria com maior frequencia.

y, X = patsy.dmatrices('np.log(renda) ~ C(sexo, Treatment("F")) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Assalariado")) + \
                       C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Casado")) + C(tipo_residencia, Treatment("Casa")) + idade + tempo_emprego + qt_pessoas_residencia + 0', data=df_1)

In [9]:
#Com o statsmodel vizualizamos como ficou a regressão.
#Podemos notar que as variáveis utilizadas para explicar o modelo de regressão fazem sentido.

modelo = sm.OLS(y, X).fit()
modelo.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.357
Model:,OLS,Adj. R-squared:,0.354
Method:,Least Squares,F-statistic:,143.1
Date:,"Sat, 27 Jul 2024",Prob (F-statistic):,0.0
Time:,08:25:41,Log-Likelihood:,-6841.3
No. Observations:,6214,AIC:,13730.0
Df Residuals:,6189,BIC:,13900.0
Df Model:,24,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
"C(sexo, Treatment(""F""))[F]",6.2230,0.291,21.361,0.000,5.652,6.794
"C(sexo, Treatment(""F""))[M]",7.0246,0.291,24.111,0.000,6.453,7.596
posse_de_veiculo[T.True],0.0591,0.020,2.930,0.003,0.020,0.099
posse_de_imovel[T.True],0.0796,0.020,3.966,0.000,0.040,0.119
"C(tipo_renda, Treatment(""Assalariado""))[T.Bolsista]",0.3055,0.327,0.934,0.350,-0.335,0.946
"C(tipo_renda, Treatment(""Assalariado""))[T.Empresário]",0.1564,0.021,7.350,0.000,0.115,0.198
"C(tipo_renda, Treatment(""Assalariado""))[T.Pensionista]",-0.2950,0.422,-0.700,0.484,-1.122,0.532
"C(tipo_renda, Treatment(""Assalariado""))[T.Servidor público]",0.0630,0.032,1.995,0.046,0.001,0.125
"C(educacao, Treatment(""Secundário""))[T.Primário]",-0.1441,0.101,-1.422,0.155,-0.343,0.055

0,1,2,3
Omnibus:,0.569,Durbin-Watson:,2.028
Prob(Omnibus):,0.753,Jarque-Bera (JB):,0.522
Skew:,0.011,Prob(JB):,0.77
Kurtosis:,3.039,Cond. No.,2390.0


### Observação:

A variável tipo_residencia não apresentou significância estatística para o modelo, tendo em vista que o p-value é maior que 0.05 em todas as categorias.

Olhando a variável R² ajustada, apresentou uma melhora mínima enquanto o AIC diminuiu minimamente. Acredito que o modelo ficou melhor dado que foi eiminado uma variável que não apresenta tanto relevância para o modelo.

In [10]:
#Removendo tipo_residencia do modelo.

y, X = patsy.dmatrices('np.log(renda) ~ C(sexo, Treatment("F")) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Assalariado")) + \
                       C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Casado")) + idade + tempo_emprego + qt_pessoas_residencia + 0', data=df_1)

modelo = sm.OLS(y, X).fit()
modelo.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.357
Model:,OLS,Adj. R-squared:,0.355
Method:,Least Squares,F-statistic:,180.8
Date:,"Sat, 27 Jul 2024",Prob (F-statistic):,0.0
Time:,08:28:20,Log-Likelihood:,-6841.8
No. Observations:,6214,AIC:,13720.0
Df Residuals:,6194,BIC:,13860.0
Df Model:,19,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
"C(sexo, Treatment(""F""))[F]",6.2244,0.291,21.384,0.000,5.654,6.795
"C(sexo, Treatment(""F""))[M]",7.0270,0.291,24.143,0.000,6.456,7.598
posse_de_veiculo[T.True],0.0592,0.020,2.943,0.003,0.020,0.099
posse_de_imovel[T.True],0.0783,0.020,3.977,0.000,0.040,0.117
"C(tipo_renda, Treatment(""Assalariado""))[T.Bolsista]",0.3062,0.327,0.937,0.349,-0.334,0.947
"C(tipo_renda, Treatment(""Assalariado""))[T.Empresário]",0.1568,0.021,7.387,0.000,0.115,0.198
"C(tipo_renda, Treatment(""Assalariado""))[T.Pensionista]",-0.2963,0.422,-0.703,0.482,-1.123,0.530
"C(tipo_renda, Treatment(""Assalariado""))[T.Servidor público]",0.0640,0.032,2.028,0.043,0.002,0.126
"C(educacao, Treatment(""Secundário""))[T.Primário]",-0.1447,0.101,-1.429,0.153,-0.343,0.054

0,1,2,3
Omnibus:,0.58,Durbin-Watson:,2.027
Prob(Omnibus):,0.748,Jarque-Bera (JB):,0.533
Skew:,0.01,Prob(JB):,0.766
Kurtosis:,3.04,Cond. No.,2390.0


### Observação

A variável educação nos apresenta quatro categorias e apenas uma delas é significante estatísticamente para o modelo. Dessa forma ela também será removida do modelo.

In [12]:
# Removendo educacao do modelo

y, X = patsy.dmatrices('np.log(renda) ~ C(sexo, Treatment("F")) + posse_de_veiculo + posse_de_imovel + qtd_filhos + C(tipo_renda, Treatment("Assalariado")) + \
                       C(estado_civil, Treatment("Casado")) + idade + tempo_emprego + qt_pessoas_residencia + 0', data=df_1)

modelo = sm.OLS(y, X).fit()
modelo.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.355
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,227.0
Date:,"Sat, 27 Jul 2024",Prob (F-statistic):,0.0
Time:,08:35:44,Log-Likelihood:,-6852.2
No. Observations:,6214,AIC:,13740.0
Df Residuals:,6198,BIC:,13840.0
Df Model:,15,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
"C(sexo, Treatment(""F""))[F]",6.2757,0.291,21.583,0.000,5.706,6.846
"C(sexo, Treatment(""F""))[M]",7.0726,0.291,24.321,0.000,6.503,7.643
posse_de_veiculo[T.True],0.0646,0.020,3.212,0.001,0.025,0.104
posse_de_imovel[T.True],0.0810,0.020,4.117,0.000,0.042,0.120
"C(tipo_renda, Treatment(""Assalariado""))[T.Bolsista]",0.3535,0.327,1.081,0.280,-0.288,0.995
"C(tipo_renda, Treatment(""Assalariado""))[T.Empresário]",0.1632,0.021,7.707,0.000,0.122,0.205
"C(tipo_renda, Treatment(""Assalariado""))[T.Pensionista]",-0.2518,0.422,-0.597,0.551,-1.079,0.575
"C(tipo_renda, Treatment(""Assalariado""))[T.Servidor público]",0.0749,0.031,2.380,0.017,0.013,0.137
"C(estado_civil, Treatment(""Casado""))[T.Separado]",0.4066,0.149,2.733,0.006,0.115,0.698

0,1,2,3
Omnibus:,0.868,Durbin-Watson:,2.03
Prob(Omnibus):,0.648,Jarque-Bera (JB):,0.821
Skew:,0.013,Prob(JB):,0.663
Kurtosis:,3.05,Cond. No.,2380.0


### Observação

Remover a variavel educacao fez com que o R²  tivessem valores menores, mas o AIC maior.

As variáveis restantes apresentam mais categorias com significância estatística.

In [13]:
#Removendo as variáveis que continuam apresentam p-value maior que 5%.

smf.ols(formula='''
                np.log(renda) ~ sexo 
                                + posse_de_veiculo 
                                + posse_de_imovel
                                + tipo_renda == 'Empresário'
                                + tipo_renda == 'Servidor público'
                                + educacao == 'Superior completo'
                                + qt_pessoas_residencia == 3
                                + qt_pessoas_residencia == 4
                                + idade 
                                + tempo_emprego
                ''', 
        data=df).fit().summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.357
Model:,OLS,Adj. R-squared:,0.356
Method:,Least Squares,F-statistic:,688.2
Date:,"Sat, 27 Jul 2024",Prob (F-statistic):,0.0
Time:,08:39:53,Log-Likelihood:,-13576.0
No. Observations:,12427,AIC:,27170.0
Df Residuals:,12416,BIC:,27260.0
Df Model:,10,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.0815,0.035,201.800,0.000,7.013,7.150
sexo[T.M],0.7844,0.015,53.961,0.000,0.756,0.813
posse_de_veiculo[T.True],0.0437,0.014,3.117,0.002,0.016,0.071
posse_de_imovel[T.True],0.0824,0.014,6.011,0.000,0.055,0.109
tipo_renda == 'Empresário'[T.True],0.1534,0.015,10.318,0.000,0.124,0.182
tipo_renda == 'Servidor público'[T.True],0.0572,0.022,2.578,0.010,0.014,0.101
educacao == 'Superior completo'[T.True],0.1083,0.014,7.979,0.000,0.082,0.135
qt_pessoas_residencia == 3[T.True],0.0443,0.017,2.596,0.009,0.011,0.078
qt_pessoas_residencia == 4[T.True],0.0843,0.022,3.806,0.000,0.041,0.128

0,1,2,3
Omnibus:,0.888,Durbin-Watson:,2.022
Prob(Omnibus):,0.641,Jarque-Bera (JB):,0.862
Skew:,0.018,Prob(JB):,0.65
Kurtosis:,3.018,Cond. No.,241.0


### Resposta:

Ao comparar o modelo final com o modelo inicial, os indicadores não apresentaram nenhuma melhora ou piora significativa. O coeficiente de determinação diminuiu de 0.358 para 0.357 e o AIC de 27190 para 27170.
