# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from patsy import dmatrices

In [None]:
df = pd.read_csv('previsao_de_renda.csv')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.

2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.

3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.
    

In [None]:
df['log_renda'] = np.log(df['renda'])

formula = 'log_renda ~ idade + tempo_emprego + qt_pessoas_residencia + qtd_filhos + C(sexo) + C(posse_de_veiculo) + C(posse_de_imovel) + C(tipo_renda) + C(educacao) + C(estado_civil) + C(tipo_residencia)'

# Criar matrizes de design usando patsy
y, X = dmatrices(formula, data=df, return_type='dataframe')

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Exibir o resumo inicial do modelo
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     287.5
Date:                Sat, 31 Aug 2024   Prob (F-statistic):               0.00
Time:                        00:23:04   Log-Likelihood:                -13568.
No. Observations:               12427   AIC:                         2.719e+04
Df Residuals:                   12402   BIC:                         2.737e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                          coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------------
In

In [None]:
# Removendo a variavel com maior P>|t| (educação)

formula_revisada = 'log_renda ~ idade + tempo_emprego + qt_pessoas_residencia + qtd_filhos + C(sexo) + C(posse_de_veiculo) + C(posse_de_imovel) + C(tipo_renda) + C(estado_civil) + C(tipo_residencia)'

# Criar matrizes de design usando patsy
y, X = dmatrices(formula_revisada, data=df, return_type='dataframe')

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Exibir o resumo inicial do modelo
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.354
Model:                            OLS   Adj. R-squared:                  0.353
Method:                 Least Squares   F-statistic:                     340.0
Date:                Sat, 31 Aug 2024   Prob (F-statistic):               0.00
Time:                        00:23:05   Log-Likelihood:                -13601.
No. Observations:               12427   AIC:                         2.724e+04
Df Residuals:                   12406   BIC:                         2.740e+04
Df Model:                          20                                         
Covariance Type:            nonrobust                                         
                                          coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------------------------
In

**Conclusão**



*   O R² e o R² ajustado mudaram poquissimo
*   Houve um pequeno aumento na estatística F, mostrando que o segundo caso é mais robusto que o primeiro.



In [None]:
#Removendo variaveis com P>|t| >0.05
formula_final= 'log_renda ~ idade + tempo_emprego + qt_pessoas_residencia  + sexo + posse_de_veiculo + posse_de_imovel'

# Criar matrizes de design usando patsy
y, X = dmatrices(formula_final, data=df, return_type='dataframe')

# Ajustar o modelo de regressão linear
model = sm.OLS(y, X).fit()

# Exibir o resumo inicial do modelo
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:              log_renda   R-squared:                       0.346
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     1097.
Date:                Sat, 31 Aug 2024   Prob (F-statistic):               0.00
Time:                        00:23:05   Log-Likelihood:                -13674.
No. Observations:               12427   AIC:                         2.736e+04
Df Residuals:                   12420   BIC:                         2.741e+04
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                               coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------------
Intercept               

**Conclusão**

* Modelo preferivel: Modelo 2.

1. Parcimônia: O Modelo 2 é mais simples (menos variáveis), o que reduz a 1*
complexidade e o risco de overfitting (ajuste excessivo ao conjunto de dados de treino).
2. F-Statistic: O valor mais alto de F-statistic indica que o Modelo 2 é significativamente robusto com menos variáveis.
3. Significância das Variáveis: O Modelo 2 inclui apenas variáveis significativas ou quase significativas, o que melhora a interpretabilidade do modelo.
4. Diferença de R² é Pequena: A diferença no R² ajustado entre os dois modelos é mínima (apenas 0.01), o que significa que a simplificação do Modelo 2 não resulta em uma perda substancial na capacidade de explicar a variância.

*obs: o F-Statistic alto pode ser um caso de overfitting mas seria necessario adicionar mais dados ao conjunto para se ter certeza*