# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [120]:
import pandas as pd
import numpy as np
import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf
import unicodedata

In [121]:
df = pd.read_csv('previsao_de_renda.csv')

In [122]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   index                  15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12466 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  mau                    15000 non-null  bool   
 15  re

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.

2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.

3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

In [123]:
# Removendo as colunas
df.drop(columns=['Unnamed: 0', 'data_ref', 'index'], inplace=True)

# Verificando as primeiras linhas para confirmar
df.head()

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,mau,renda
0,F,False,True,1,Assalariado,Secundário,Casado,Casa,36,3.575342,3.0,False,3369.24
1,M,True,True,0,Empresário,Secundário,Casado,Casa,42,0.860274,2.0,False,6096.14
2,M,True,True,2,Assalariado,Superior completo,Casado,Casa,31,8.065753,4.0,False,5658.98
3,F,True,False,0,Empresário,Secundário,Casado,Casa,50,1.208219,2.0,False,7246.69
4,M,False,False,0,Assalariado,Secundário,Casado,Casa,52,13.873973,2.0,False,4017.37


In [124]:
# Transformando a coluna de renda

df['log_renda'] = np.log(df['renda'])

In [125]:
# Usando Patsy para criar dummies

# Determinar a categoria de referência para cada variável categórica
cat_cols = ['sexo', 'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia']
reference_cats = {col: df[col].value_counts().idxmax() for col in cat_cols}

# Construir a fórmula para o modelo
formula = "log_renda ~ "
formula += " + ".join([f"Q('{col}')" for col in df.columns if col not in cat_cols + ['renda', 'log_renda']])
formula += " + " + " + ".join([f"C(Q('{col}'), Treatment(reference='{ref}'))" for col, ref in reference_cats.items()])

y, X = patsy.dmatrices(formula, df, return_type='dataframe')

In [126]:
# Ajustando o modelo de regressão linear

model = sm.OLS(y, X)
result = model.fit()

In [127]:
# Avaliando os parâmetros estimados

print(result.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.242
Model:                            OLS   Adj. R-squared:                  0.240
Method:                 Least Squares   F-statistic:                     158.7
Date:                Sat, 09 Sep 2023   Prob (F-statistic):               0.00
Time:                        14:50:08   Log-Likelihood:                -13204.
No. Observations:               12466   AIC:                         2.646e+04
Df Residuals:                   12440   BIC:                         2.665e+04
Df Model:                          25                                         
Covariance Type:            nonrobust                                         
                                                                                 coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------

# Conclusões práticas

Ser do sexo masculino está fortemente associado a ter uma renda mais alta.

Possuir um imóvel também está associado a uma renda mais alta.

Ter uma renda do tipo 'Empresário' ou 'Pensionista' em comparação a 'Assalariado' está associado a uma renda mais alta.

Ter uma educação de 'Pós-graduação' ou 'Superior completo' (em comparação com 'Secundário') está associado a uma renda mais alta.

A idade e o tempo de emprego têm impactos positivos na renda. Ou seja, à medida que a idade e o tempo de emprego aumentam, a renda também tende a aumentar.

In [128]:
# Removendo a váriavel 'qtd_filhos' por ser a variável menos significante
# Em seguida, imprimindo o resumo do novo modelo

formula = """
log_renda ~ Q('posse_de_veiculo') + Q('posse_de_imovel') + Q('mau')
+ C(Q('sexo'), Treatment(reference='F'))
+ C(Q('tipo_renda'), Treatment(reference='Assalariado'))
+ C(Q('educacao'), Treatment(reference='Secundário'))
+ C(Q('estado_civil'), Treatment(reference='Casado'))
+ C(Q('tipo_residencia'), Treatment(reference='Casa'))
+ Q('idade') + Q('tempo_emprego') + Q('qt_pessoas_residencia')
"""

model = smf.ols(formula=formula, data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.242
Model:                            OLS   Adj. R-squared:                  0.240
Method:                 Least Squares   F-statistic:                     165.3
Date:                Sat, 09 Sep 2023   Prob (F-statistic):               0.00
Time:                        14:50:13   Log-Likelihood:                -13204.
No. Observations:               12466   AIC:                         2.646e+04
Df Residuals:                   12441   BIC:                         2.664e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                                                                 coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------

In [130]:
# Função para remover acentuação e transformar em caixa baixa
def clean_text(text):
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode("utf-8")
    return str(text).lower().replace(" ", "_")

# Aplicando transformações nos nomes das colunas
df.columns = [clean_text(col) for col in df.columns]

# Aplicando transformações nos valores das colunas específicas
for column in ['tipo_renda', 'educacao', 'tipo_residencia']:
    df[column] = df[column].apply(clean_text)

In [133]:
# Removendo observações com as categorias especificadas
df = df.loc[~df['tipo_renda'].eq('bolsista') & 
            ~df['educacao'].eq('primario') & 
            ~df['tipo_residencia'].isin(['aluguel', 'comunitario']), :]

In [134]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.242
Model:                            OLS   Adj. R-squared:                  0.240
Method:                 Least Squares   F-statistic:                     165.3
Date:                Sat, 09 Sep 2023   Prob (F-statistic):               0.00
Time:                        14:50:59   Log-Likelihood:                -13204.
No. Observations:               12466   AIC:                         2.646e+04
Df Residuals:                   12441   BIC:                         2.664e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                                                                 coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------

In [137]:
# Conferindo as alterações

print(df['tipo_renda'].unique())
print(df['educacao'].unique())
print(df['tipo_residencia'].unique())

['assalariado' 'empresario' 'servidor_publico' 'pensionista']
['secundario' 'superior_completo' 'superior_incompleto' 'pos_graduacao']
['casa' 'com_os_pais' 'governamental' 'estudio']


In [142]:
# Exeecutando o modelo refinado

formula = """
log_renda ~ posse_de_imovel + mau 
+ C(sexo, Treatment(reference='F'))
+ educacao + estado_civil + tipo_residencia + idade
+ tempo_emprego + qt_pessoas_residencia
"""

model = smf.ols(formula=formula, data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.235
Model:                            OLS   Adj. R-squared:                  0.234
Method:                 Least Squares   F-statistic:                     232.3
Date:                Sat, 09 Sep 2023   Prob (F-statistic):               0.00
Time:                        14:56:25   Log-Likelihood:                -12896.
No. Observations:               12129   AIC:                         2.583e+04
Df Residuals:                   12112   BIC:                         2.595e+04
Df Model:                          16                                         
Covariance Type:            nonrobust                                         
                                             coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------------

# Conclusão

Apesar do primeiro modelo ter um R2 ligeiramente superior, o segundo modelo tem valores AIC e BIC mais baixos, menos variáveis insignificantes, e é menos complexo. Além disso, o segundo modelo apresenta uma indicação ligeiramente menor de multicolinearidade. Portanto, com base nesses critérios, o segundo modelo parece ser a escolha superior entre os dois apresentados.