# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [1]:
# Importe os módulos necessários
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import statsmodels.formula.api as smf
import statsmodels.api as sm
import patsy

%matplotlib inline

In [2]:
# Carregando o Data frame:
df = pd.read_csv('previsao_de_renda.csv')
df 

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.602740,1.0,8060.34
1,1,2015-01-01,9968,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,2,2015-01-01,4312,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,3,2015-01-01,10639,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,4,2015-01-01,7064,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,14995,2016-03-01,16006,F,False,True,0,Empresário,Secundário,Solteiro,Casa,48,13.887671,1.0,7990.58
14996,14996,2016-03-01,3722,F,False,True,0,Pensionista,Superior completo,Solteiro,Casa,57,,1.0,10093.45
14997,14997,2016-03-01,6194,F,True,True,0,Assalariado,Superior completo,Casado,Casa,45,7.832877,2.0,604.82
14998,14998,2016-03-01,4922,M,True,False,0,Empresário,Superior completo,Casado,Casa,36,4.298630,2.0,3352.27


In [3]:
# Visualizando informações importantes da base:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

In [4]:
#Conferindo se há varievies com dados ausentes:
df.isna().sum()

Unnamed: 0                  0
data_ref                    0
id_cliente                  0
sexo                        0
posse_de_veiculo            0
posse_de_imovel             0
qtd_filhos                  0
tipo_renda                  0
educacao                    0
estado_civil                0
tipo_residencia             0
idade                       0
tempo_emprego            2573
qt_pessoas_residencia       0
renda                       0
dtype: int64

In [5]:
# removendo dados ausentes e visualizando se ainda há
df = df.dropna()
df.isna().sum()

Unnamed: 0               0
data_ref                 0
id_cliente               0
sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
qt_pessoas_residencia    0
renda                    0
dtype: int64

In [6]:
# verificando todas as colunas
df.columns

Index(['Unnamed: 0', 'data_ref', 'id_cliente', 'sexo', 'posse_de_veiculo',
       'posse_de_imovel', 'qtd_filhos', 'tipo_renda', 'educacao',
       'estado_civil', 'tipo_residencia', 'idade', 'tempo_emprego',
       'qt_pessoas_residencia', 'renda'],
      dtype='object')

In [7]:
#removendo colunas que não trazem dados importantes para a análise
df = df.drop(columns=['Unnamed: 0', 'data_ref', 'id_cliente'])
df

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.602740,1.0,8060.34
1,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97
...,...,...,...,...,...,...,...,...,...,...,...,...
14994,M,True,False,0,Empresário,Superior incompleto,Casado,Casa,32,9.849315,2.0,1592.57
14995,F,False,True,0,Empresário,Secundário,Solteiro,Casa,48,13.887671,1.0,7990.58
14997,F,True,True,0,Assalariado,Superior completo,Casado,Casa,45,7.832877,2.0,604.82
14998,M,True,False,0,Empresário,Superior completo,Casado,Casa,36,4.298630,2.0,3352.27


## 1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.



In [8]:
#Colocando as colunas em uma lista:
lista_de_colunas = list(df.columns)
lista_de_colunas.remove('renda')
lista_de_colunas

['sexo',
 'posse_de_veiculo',
 'posse_de_imovel',
 'qtd_filhos',
 'tipo_renda',
 'educacao',
 'estado_civil',
 'tipo_residencia',
 'idade',
 'tempo_emprego',
 'qt_pessoas_residencia']

In [9]:
# Formatando todas as colunas da lista para podermos criar as matrizes de design mais facilmente
transformar = 'np.log(renda) ~ ' + ' + '.join(lista_de_colunas)
transformar

'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego + qt_pessoas_residencia'

In [10]:
# Criando as matrizes de design
y, x = patsy.dmatrices(transformar, df)

In [11]:
# Ajustando o modelo de regressão linear e chamando o resumo
reg = sm.OLS(y, x).fit()
df['res_log'] = reg.resid
reg.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.357
Model:,OLS,Adj. R-squared:,0.356
Method:,Least Squares,F-statistic:,287.5
Date:,"Sat, 23 Mar 2024",Prob (F-statistic):,0.0
Time:,23:35:40,Log-Likelihood:,-13568.0
No. Observations:,12427,AIC:,27190.0
Df Residuals:,12402,BIC:,27370.0
Df Model:,24,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.5847,0.235,28.006,0.000,6.124,7.046
sexo[T.M],0.7874,0.015,53.723,0.000,0.759,0.816
posse_de_veiculo[T.True],0.0441,0.014,3.119,0.002,0.016,0.072
posse_de_imovel[T.True],0.0829,0.014,5.926,0.000,0.055,0.110
tipo_renda[T.Bolsista],0.2209,0.241,0.916,0.360,-0.252,0.694
tipo_renda[T.Empresário],0.1551,0.015,10.387,0.000,0.126,0.184
tipo_renda[T.Pensionista],-0.3087,0.241,-1.280,0.201,-0.782,0.164
tipo_renda[T.Servidor público],0.0576,0.022,2.591,0.010,0.014,0.101
educacao[T.Pós graduação],0.1071,0.159,0.673,0.501,-0.205,0.419

0,1,2,3
Omnibus:,0.858,Durbin-Watson:,2.023
Prob(Omnibus):,0.651,Jarque-Bera (JB):,0.839
Skew:,0.019,Prob(JB):,0.657
Kurtosis:,3.012,Cond. No.,2180.0


## 2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.

In [12]:
# Listando todas as variáveis que possuem P>|t| superior a 0.05.
variaveis_descartaveis = ['tipo_renda[T.Bolsista]', 'tipo_renda[T.Pensionista]', 'educacao[T.Pós graduação]', 'educacao[T.Secundário]',
                         'educacao[T.Superior completo]', 'educacao[T.Superior incompleto]', 'estado_civil[T.União]', 
                          'tipo_residencia[T.Casa]', 'tipo_residencia[T.Com os pais]', 'tipo_residencia[T.Comunitário]', 
                          'tipo_residencia[T.Estúdio]', 'tipo_residencia[T.Governamental]']
variaveis_descartaveis

['tipo_renda[T.Bolsista]',
 'tipo_renda[T.Pensionista]',
 'educacao[T.Pós graduação]',
 'educacao[T.Secundário]',
 'educacao[T.Superior completo]',
 'educacao[T.Superior incompleto]',
 'estado_civil[T.União]',
 'tipo_residencia[T.Casa]',
 'tipo_residencia[T.Com os pais]',
 'tipo_residencia[T.Comunitário]',
 'tipo_residencia[T.Estúdio]',
 'tipo_residencia[T.Governamental]']

In [13]:
# Criando uma nova variável 'estado_civil_sem_uniao' sem a dummy 'estado_civil[T.União] que ultrapassou 5% no p valor'
df['estado_civil_sem_uniao'] = df['estado_civil']
df.loc[df['estado_civil'] == 'União', 'estado_civil_sem_uniao'] = ''

In [14]:
# Criando uma nova variável 'tipo_renda_limpo' sem as dummies 'tipo_renda[T.Bolsista] e tipo_renda[T.Pensionista]' que ultrapassaram 5% no p valor
df['tipo_renda_limpo'] = df['tipo_renda']
df.loc[df['tipo_renda'].isin(['Bolsista', 'Pensionista', 'Assalariado']), 'tipo_renda_limpo'] = ''

In [15]:
# Removendo as variáveis descartaveis e deixando apenas as que são necessárias para a análise:
variaveis_limpas = 'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda_limpo + estado_civil_sem_uniao + idade + tempo_emprego + qt_pessoas_residencia'

In [16]:
# Criando as matrizes de design
y, x = patsy.dmatrices(variaveis_limpas, df)

In [17]:
# Ajustando o modelo de regressão linear e chamando o resumo
reg_1 = sm.OLS(y, x).fit()
df['res_log1'] = reg_1.resid
reg_1.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.354
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,522.6
Date:,"Sat, 23 Mar 2024",Prob (F-statistic):,0.0
Time:,23:35:40,Log-Likelihood:,-13604.0
No. Observations:,12427,AIC:,27240.0
Df Residuals:,12413,BIC:,27340.0
Df Model:,13,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.5578,0.219,29.885,0.000,6.128,6.988
sexo[T.M],0.7816,0.015,53.466,0.000,0.753,0.810
posse_de_veiculo[T.True],0.0531,0.014,3.765,0.000,0.025,0.081
posse_de_imovel[T.True],0.0853,0.014,6.207,0.000,0.058,0.112
tipo_renda_limpo[T.Empresário],0.1655,0.015,11.123,0.000,0.136,0.195
tipo_renda_limpo[T.Servidor público],0.0768,0.022,3.469,0.001,0.033,0.120
estado_civil_sem_uniao[T.Casado],0.0363,0.025,1.442,0.149,-0.013,0.086
estado_civil_sem_uniao[T.Separado],0.3601,0.114,3.169,0.002,0.137,0.583
estado_civil_sem_uniao[T.Solteiro],0.2972,0.111,2.671,0.008,0.079,0.515

0,1,2,3
Omnibus:,1.118,Durbin-Watson:,2.024
Prob(Omnibus):,0.572,Jarque-Bera (JB):,1.092
Skew:,0.021,Prob(JB):,0.579
Kurtosis:,3.018,Cond. No.,2150.0


Notamos que ainda há valores superiores a 5% como 'estado_civil_sem_uniao[T.Casado]'

In [18]:
# Criando uma nova variável 'estado_civil_sem_uniao_casado' sem a dummy 'estado_civil[T.Casado] que também ultrapasssou 5% no p valor'
df['estado_civil_sem_uniao_casado'] = df['estado_civil']
df.loc[df['estado_civil'].isin(['Casado', 'União']), 'estado_civil_sem_uniao_casado'] = ''

In [19]:
# Removendo as variáveis descartaveis e deixando apenas as que são necessárias para a análise:
variaveis_limpas = 'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda_limpo + estado_civil_sem_uniao_casado + idade + tempo_emprego + qt_pessoas_residencia'

In [20]:
# Criando as matrizes de design
y, x = patsy.dmatrices(variaveis_limpas, df)

In [21]:
# Ajustando o modelo de regressão linear e chamando o resumo
reg_2 = sm.OLS(y, x).fit()
df['res_log2'] = reg_2.resid
reg_2.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.354
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,565.9
Date:,"Sat, 23 Mar 2024",Prob (F-statistic):,0.0
Time:,23:35:40,Log-Likelihood:,-13605.0
No. Observations:,12427,AIC:,27240.0
Df Residuals:,12414,BIC:,27330.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.5848,0.219,30.116,0.000,6.156,7.013
sexo[T.M],0.7824,0.015,53.560,0.000,0.754,0.811
posse_de_veiculo[T.True],0.0546,0.014,3.877,0.000,0.027,0.082
posse_de_imovel[T.True],0.0857,0.014,6.235,0.000,0.059,0.113
tipo_renda_limpo[T.Empresário],0.1648,0.015,11.084,0.000,0.136,0.194
tipo_renda_limpo[T.Servidor público],0.0770,0.022,3.477,0.001,0.034,0.120
estado_civil_sem_uniao_casado[T.Separado],0.3281,0.111,2.944,0.003,0.110,0.547
estado_civil_sem_uniao_casado[T.Solteiro],0.2656,0.109,2.434,0.015,0.052,0.479
estado_civil_sem_uniao_casado[T.Viúvo],0.3622,0.116,3.127,0.002,0.135,0.589

0,1,2,3
Omnibus:,1.131,Durbin-Watson:,2.024
Prob(Omnibus):,0.568,Jarque-Bera (JB):,1.104
Skew:,0.021,Prob(JB):,0.576
Kurtosis:,3.019,Cond. No.,2130.0


### insight:
 - Houve uma queda menor de 1% no coeficiente de determinação (R-quadrado) em comparação com o primeiro modelo de regressão linear.
 - "O critério de informação de Akaike (AIC) aumentou de 2.719e+04 para 2.724e+04.

    
## 3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 

In [22]:
# Verificando quais as variaveis mais frequentes para mudar a casela de referência
df.estado_civil_sem_uniao_casado.value_counts()

estado_civil_sem_uniao_casado
            9821
Solteiro    1543
Separado     739
Viúvo        324
Name: count, dtype: int64

In [23]:
# Após analisarmos que Solteira é o valor mais frequente na variável estado_civil limpa
y,x = patsy.dmatrices('np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + '
                       'tipo_renda_limpo + qtd_filhos + C(estado_civil_sem_uniao_casado, Treatment("Solteiro")) + '
                       'idade + tempo_emprego + qt_pessoas_residencia', df)

# Ajuste o modelo de regressão linear
reg3 = sm.OLS(y,x).fit()
df['res_log3'] = reg3.resid

# Imprimindo o resumo do modelo
reg3.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.354
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,565.9
Date:,"Sat, 23 Mar 2024",Prob (F-statistic):,0.0
Time:,23:35:40,Log-Likelihood:,-13605.0
No. Observations:,12427,AIC:,27240.0
Df Residuals:,12414,BIC:,27330.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.8503,0.115,59.741,0.000,6.626,7.075
sexo[T.M],0.7824,0.015,53.560,0.000,0.754,0.811
posse_de_veiculo[T.True],0.0546,0.014,3.877,0.000,0.027,0.082
posse_de_imovel[T.True],0.0857,0.014,6.235,0.000,0.059,0.113
tipo_renda_limpo[T.Empresário],0.1648,0.015,11.084,0.000,0.136,0.194
tipo_renda_limpo[T.Servidor público],0.0770,0.022,3.477,0.001,0.034,0.120
"C(estado_civil_sem_uniao_casado, Treatment(""Solteiro""))[T.]",-0.2656,0.109,-2.434,0.015,-0.479,-0.052
"C(estado_civil_sem_uniao_casado, Treatment(""Solteiro""))[T.Separado]",0.0625,0.033,1.908,0.056,-0.002,0.127
"C(estado_civil_sem_uniao_casado, Treatment(""Solteiro""))[T.Viúvo]",0.0966,0.045,2.142,0.032,0.008,0.185

0,1,2,3
Omnibus:,1.131,Durbin-Watson:,2.024
Prob(Omnibus):,0.568,Jarque-Bera (JB):,1.104
Skew:,0.021,Prob(JB):,0.576
Kurtosis:,3.019,Cond. No.,1420.0


In [24]:
# Verificando quais as variaveis mais frequentes para mudar a casela de referência
df.tipo_renda.value_counts()

tipo_renda
Assalariado         7633
Empresário          3508
Servidor público    1268
Bolsista               9
Pensionista            9
Name: count, dtype: int64

In [25]:
# Após analisarmos que Assalariado é o valor mais frequente na variável tipo_renda limpa
y,x = patsy.dmatrices('np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + C(tipo_renda_limpo, Treatment("Empresário")) + '
                       'qtd_filhos + estado_civil_sem_uniao_casado + idade + tempo_emprego + qt_pessoas_residencia', df)

# Ajuste o modelo de regressão linear
reg4 = sm.OLS(y,x).fit()
df['res_log4'] = reg4.resid

# Imprimindo o resumo do modelo
reg4.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.354
Model:,OLS,Adj. R-squared:,0.353
Method:,Least Squares,F-statistic:,565.9
Date:,"Sat, 23 Mar 2024",Prob (F-statistic):,0.0
Time:,23:35:40,Log-Likelihood:,-13605.0
No. Observations:,12427,AIC:,27240.0
Df Residuals:,12414,BIC:,27330.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6.7496,0.218,30.892,0.000,6.321,7.178
sexo[T.M],0.7824,0.015,53.560,0.000,0.754,0.811
posse_de_veiculo[T.True],0.0546,0.014,3.877,0.000,0.027,0.082
posse_de_imovel[T.True],0.0857,0.014,6.235,0.000,0.059,0.113
"C(tipo_renda_limpo, Treatment(""Empresário""))[T.]",-0.1648,0.015,-11.084,0.000,-0.194,-0.136
"C(tipo_renda_limpo, Treatment(""Empresário""))[T.Servidor público]",-0.0878,0.024,-3.650,0.000,-0.135,-0.041
estado_civil_sem_uniao_casado[T.Separado],0.3281,0.111,2.944,0.003,0.110,0.547
estado_civil_sem_uniao_casado[T.Solteiro],0.2656,0.109,2.434,0.015,0.052,0.479
estado_civil_sem_uniao_casado[T.Viúvo],0.3622,0.116,3.127,0.002,0.135,0.589

0,1,2,3
Omnibus:,1.131,Durbin-Watson:,2.024
Prob(Omnibus):,0.568,Jarque-Bera (JB):,1.104
Skew:,0.021,Prob(JB):,0.576
Kurtosis:,3.019,Cond. No.,2130.0


### Insight: 
Após analisarmos todas as mudanças feitas nos modelos, podemos concluir que os modelos não foram melhores, pois não aumentaram o coeficiente de determinação (R²), o R² ajustado e o critério de informação de Akaike (AIC) aumentaram, o que não é o ideal.