# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [28]:
# Bibliotecas externas de manipulação e visualização dos dados
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Biblioteca para estatísticas 
import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [29]:
df = pd.read_csv('./input/previsao_de_renda.csv')

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.

2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.

3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

### 1°

In [31]:
lista_de_variaveis = df.columns.to_list()
lista_de_variaveis = lista_de_variaveis[3:]

In [32]:
dicionario_de_variaveis = {}
dicionario_de_variaveis['sexo'] = {df['sexo'].unique().tolist()[0]:10119}

In [33]:
dicionario_de_variaveis = {}
dicionario_de_variaveis_max = {}

for variavel in lista_de_variaveis:
    if(variavel in ['renda', 'idade', 'tempo_emprego']):
        continue
    contagem = df[variavel].value_counts()
    dicionario_de_variaveis[variavel] = pd.DataFrame({
        ('','index'): contagem.index,
        ('','valor'): contagem.values
    })
    
    dicionario_de_variaveis_max[variavel] = dicionario_de_variaveis[variavel][dicionario_de_variaveis[variavel]['','valor'] == dicionario_de_variaveis[variavel]['','valor'].max()]

dataframe_de_contagem = pd.concat(dicionario_de_variaveis, axis=1)
dataframe_de_contagem_max = pd.concat(dicionario_de_variaveis_max, axis=1)
dataframe_de_contagem_max

Unnamed: 0_level_0,sexo,sexo,posse_de_veiculo,posse_de_veiculo,posse_de_imovel,posse_de_imovel,qtd_filhos,qtd_filhos,tipo_renda,tipo_renda,educacao,educacao,estado_civil,estado_civil,tipo_residencia,tipo_residencia,qt_pessoas_residencia,qt_pessoas_residencia
Unnamed: 0_level_1,index,valor,index,valor,index,valor,index,valor,index,valor,index,valor,index,valor,index,valor,index,valor
0,F,10119,False,9140,True,10143,0,10376,Assalariado,7633,Secundário,8895,Casado,10534,Casa,13532,2.0,8181


In [34]:
lista_de_variaveis = 'np.log(renda) ~ C(sexo, Treatment("F")) + C(posse_de_veiculo, Treatment(False)) + C(posse_de_imovel, Treatment(True)) + C(qtd_filhos, Treatment(0)) + C(tipo_renda, Treatment("Assalariado")) + C(educacao, Treatment("Secundário")) + C(estado_civil, Treatment("Casado")) + C(tipo_residencia, Treatment("Casa")) + idade + tempo_emprego'

In [35]:
y, x = patsy.dmatrices(
    lista_de_variaveis,
    df,
)
reg = sm.OLS(y, x).fit()
reg.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.358
Model:,OLS,Adj. R-squared:,0.356
Method:,Least Squares,F-statistic:,238.2
Date:,"Sat, 04 Jan 2025",Prob (F-statistic):,0.0
Time:,22:09:37,Log-Likelihood:,-13564.0
No. Observations:,12427,AIC:,27190.0
Df Residuals:,12397,BIC:,27410.0
Df Model:,29,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.1788,0.039,186.307,0.000,7.103,7.254
"C(sexo, Treatment(""F""))[T.M]",0.7878,0.015,53.696,0.000,0.759,0.817
"C(posse_de_veiculo, Treatment(False))[T.True]",0.0432,0.014,3.052,0.002,0.015,0.071
"C(posse_de_imovel, Treatment(True))[T.False]",-0.0833,0.014,-5.952,0.000,-0.111,-0.056
"C(qtd_filhos, Treatment(0))[T.1]",0.0429,0.016,2.621,0.009,0.011,0.075
"C(qtd_filhos, Treatment(0))[T.2]",0.0775,0.022,3.493,0.000,0.034,0.121
"C(qtd_filhos, Treatment(0))[T.3]",-0.0350,0.054,-0.644,0.520,-0.142,0.072
"C(qtd_filhos, Treatment(0))[T.4]",0.3678,0.175,2.096,0.036,0.024,0.712
"C(qtd_filhos, Treatment(0))[T.5]",0.4522,0.513,0.882,0.378,-0.553,1.457

0,1,2,3
Omnibus:,1.084,Durbin-Watson:,2.024
Prob(Omnibus):,0.581,Jarque-Bera (JB):,1.055
Skew:,0.02,Prob(JB):,0.59
Kurtosis:,3.022,Cond. No.,3370.0


### 2°

In [36]:
contagem_de_variaveis_unicas = {}
contagem_de_itens_ireelevantes_por_variavel = [3, 2, 3, 4, 5]

contagem_de_variaveis_unicas["qtd_filhos"] = dataframe_de_contagem[
    "qtd_filhos", "", "index"
].nunique()
contagem_de_variaveis_unicas["tipo_renda"] = dataframe_de_contagem[
    "tipo_renda", "", "index"
].nunique()
contagem_de_variaveis_unicas["educacao"] = dataframe_de_contagem[
    "educacao", "", "index"
].nunique()
contagem_de_variaveis_unicas["estado_civil"] = dataframe_de_contagem[
    "estado_civil", "", "index"
].nunique()
contagem_de_variaveis_unicas["tipo_residencia"] = dataframe_de_contagem[
    "tipo_residencia", "", "index"
].nunique()

contagem_de_variaveis_unicas

{'qtd_filhos': 8,
 'tipo_renda': 5,
 'educacao': 5,
 'estado_civil': 5,
 'tipo_residencia': 6}

In [37]:
porcentagem_de_irrelevancia_das_variaveis = {}

for i, variavel in enumerate(contagem_de_variaveis_unicas):
    porcentagem_de_irrelevancia_das_variaveis[variavel] = round((contagem_de_itens_ireelevantes_por_variavel[i] / contagem_de_variaveis_unicas[variavel])*100, 2)

porcentagem_de_irrelevancia_das_variaveis

{'qtd_filhos': 37.5,
 'tipo_renda': 40.0,
 'educacao': 60.0,
 'estado_civil': 80.0,
 'tipo_residencia': 83.33}

In [38]:
lista_tratada = [explicativo.strip() for explicativo in lista_de_variaveis.split(sep='+')]

remocao = 'C(tipo_residencia, Treatment("Casa"))'

lista_tratada.remove(remocao)

lista_tratada = '+'.join(lista_tratada)

In [39]:
lista_tratada

'np.log(renda) ~ C(sexo, Treatment("F"))+C(posse_de_veiculo, Treatment(False))+C(posse_de_imovel, Treatment(True))+C(qtd_filhos, Treatment(0))+C(tipo_renda, Treatment("Assalariado"))+C(educacao, Treatment("Secundário"))+C(estado_civil, Treatment("Casado"))+idade+tempo_emprego'

In [40]:
y, x = patsy.dmatrices(
    lista_tratada, df
)
reg = sm.OLS(y, x).fit()
reg.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.358
Model:,OLS,Adj. R-squared:,0.356
Method:,Least Squares,F-statistic:,287.7
Date:,"Sat, 04 Jan 2025",Prob (F-statistic):,0.0
Time:,22:09:37,Log-Likelihood:,-13566.0
No. Observations:,12427,AIC:,27180.0
Df Residuals:,12402,BIC:,27370.0
Df Model:,24,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.1820,0.038,188.378,0.000,7.107,7.257
"C(sexo, Treatment(""F""))[T.M]",0.7897,0.015,53.971,0.000,0.761,0.818
"C(posse_de_veiculo, Treatment(False))[T.True]",0.0432,0.014,3.056,0.002,0.015,0.071
"C(posse_de_imovel, Treatment(True))[T.False]",-0.0822,0.014,-5.982,0.000,-0.109,-0.055
"C(qtd_filhos, Treatment(0))[T.1]",0.0437,0.016,2.671,0.008,0.012,0.076
"C(qtd_filhos, Treatment(0))[T.2]",0.0776,0.022,3.498,0.000,0.034,0.121
"C(qtd_filhos, Treatment(0))[T.3]",-0.0362,0.054,-0.666,0.505,-0.143,0.070
"C(qtd_filhos, Treatment(0))[T.4]",0.3663,0.175,2.088,0.037,0.022,0.710
"C(qtd_filhos, Treatment(0))[T.5]",0.4121,0.511,0.807,0.420,-0.589,1.413

0,1,2,3
Omnibus:,1.027,Durbin-Watson:,2.024
Prob(Omnibus):,0.598,Jarque-Bera (JB):,1.0
Skew:,0.02,Prob(JB):,0.607
Kurtosis:,3.019,Cond. No.,3360.0


Resposta: Retirando apenas a variável 'tipo_residencia' que é a considerada mais irrelevante, por ter um número superior de categorias demosntrando um p-value fora dos padrões não houveram grandes mudanças no R-quadrado e R-quadrado ajustado, ambos mantiveram os mesmos valores, já o índice AIC apresentou uma queda nos seus valores, então em última instância houve sim uma melhora do modelo mas não foi algo de grande expressão.

### 3°

In [41]:
p_values = pd.Series(reg.pvalues, index= x.design_info.column_names)
variaveis_significativas = p_values[p_values <= 0.05].index.to_list()
print(variaveis_significativas)

['Intercept', 'C(sexo, Treatment("F"))[T.M]', 'C(posse_de_veiculo, Treatment(False))[T.True]', 'C(posse_de_imovel, Treatment(True))[T.False]', 'C(qtd_filhos, Treatment(0))[T.1]', 'C(qtd_filhos, Treatment(0))[T.2]', 'C(qtd_filhos, Treatment(0))[T.4]', 'C(tipo_renda, Treatment("Assalariado"))[T.Empresário]', 'C(tipo_renda, Treatment("Assalariado"))[T.Servidor público]', 'C(educacao, Treatment("Secundário"))[T.Superior completo]', 'idade', 'tempo_emprego']


In [42]:
y, x = patsy.dmatrices(
    'np.log(renda) ~ C(sexo, Treatment("F")) + C(posse_de_veiculo, Treatment(False)) + C(posse_de_imovel, Treatment(True)) + C(tipo_renda, Treatment("Assalariado")) + C(qtd_filhos, Treatment(0)) + C(educacao, Treatment("Secundário")) + idade + tempo_emprego',
    df,
)
reg = sm.OLS(y, x).fit()
reg.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.357
Model:,OLS,Adj. R-squared:,0.356
Method:,Least Squares,F-statistic:,344.7
Date:,"Sat, 04 Jan 2025",Prob (F-statistic):,0.0
Time:,22:09:38,Log-Likelihood:,-13570.0
No. Observations:,12427,AIC:,27180.0
Df Residuals:,12406,BIC:,27340.0
Df Model:,20,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.1650,0.037,193.870,0.000,7.093,7.237
"C(sexo, Treatment(""F""))[T.M]",0.7872,0.015,54.123,0.000,0.759,0.816
"C(posse_de_veiculo, Treatment(False))[T.True]",0.0436,0.014,3.105,0.002,0.016,0.071
"C(posse_de_imovel, Treatment(True))[T.False]",-0.0818,0.014,-5.960,0.000,-0.109,-0.055
"C(tipo_renda, Treatment(""Assalariado""))[T.Bolsista]",0.2212,0.241,0.917,0.359,-0.251,0.694
"C(tipo_renda, Treatment(""Assalariado""))[T.Empresário]",0.1533,0.015,10.292,0.000,0.124,0.182
"C(tipo_renda, Treatment(""Assalariado""))[T.Pensionista]",-0.3273,0.241,-1.358,0.174,-0.800,0.145
"C(tipo_renda, Treatment(""Assalariado""))[T.Servidor público]",0.0570,0.022,2.567,0.010,0.013,0.100
"C(qtd_filhos, Treatment(0))[T.1]",0.0462,0.016,2.853,0.004,0.014,0.078

0,1,2,3
Omnibus:,0.982,Durbin-Watson:,2.024
Prob(Omnibus):,0.612,Jarque-Bera (JB):,0.954
Skew:,0.019,Prob(JB):,0.621
Kurtosis:,3.021,Cond. No.,3360.0


In [43]:
y, x = patsy.dmatrices(
    'np.log(renda) ~ C(sexo, Treatment("F")) + C(posse_de_veiculo, Treatment(False)) + C(posse_de_imovel, Treatment(True))  + idade + tempo_emprego  ',
    df,
)
reg = sm.OLS(y, x).fit()
reg.summary()

0,1,2,3
Dep. Variable:,np.log(renda),R-squared:,0.346
Model:,OLS,Adj. R-squared:,0.346
Method:,Least Squares,F-statistic:,1315.0
Date:,"Sat, 04 Jan 2025",Prob (F-statistic):,0.0
Time:,22:09:38,Log-Likelihood:,-13676.0
No. Observations:,12427,AIC:,27360.0
Df Residuals:,12421,BIC:,27410.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,7.3430,0.032,230.088,0.000,7.280,7.406
"C(sexo, Treatment(""F""))[T.M]",0.7700,0.015,52.851,0.000,0.741,0.799
"C(posse_de_veiculo, Treatment(False))[T.True]",0.0579,0.014,4.116,0.000,0.030,0.085
"C(posse_de_imovel, Treatment(True))[T.False]",-0.0880,0.014,-6.379,0.000,-0.115,-0.061
idade,0.0044,0.001,5.871,0.000,0.003,0.006
tempo_emprego,0.0611,0.001,59.199,0.000,0.059,0.063

0,1,2,3
Omnibus:,1.248,Durbin-Watson:,2.026
Prob(Omnibus):,0.536,Jarque-Bera (JB):,1.221
Skew:,0.022,Prob(JB):,0.543
Kurtosis:,3.019,Cond. No.,211.0


Resposta: O melhor modelo levando em consideração as métricas de AIC e R-Quadrado, foi o formatado por último com a remoção das variáveis 'estado_civil' e 'tipo_residencia' que eram as duas que se encontravam com o maior número de componentes fora dos padrões de p-value, ao retirarmos mais variáveis como 'qtd_filhos' 'educacao' e 'tipo_renda' notamos uma queda nos indices que fazem a relação de performance com complexidade do modelo, então a última decisão foi de retirar apenas as duas variáveis mais problemáticas