# EBAC - Regress√£o II - regress√£o m√∫ltipla

## Tarefa I

#### Previs√£o de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que √© a base do seu pr√≥ximo projeto. Vamos usar os recursos que vimos at√© aqui nesta base.

|variavel|descri√ß√£o|
|-|-|
|data_ref                | Data de refer√™ncia de coleta das vari√°veis |
|index                   | C√≥digo de identifica√ß√£o do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui ve√≠culo|
|posse_de_imovel         | Indica se o cliente possui im√≥vel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instru√ß√£o do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de resid√™ncia do cliente (pr√≥pria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na resid√™ncia|
|renda                   | Renda em reais|

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('previsao_de_renda.csv')

In [None]:
df.info()

1. Ajuste um modelo para prever log(renda) considerando todas as covari√°veis dispon√≠veis.
    - Utilizando os recursos do Patsy, coloque as vari√°veis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de refer√™ncia
    - Avalie os par√¢metros e veja se parecem fazer sentido pr√°tico.  


2. Remova a vari√°vel menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opini√£o.
    - Observe os par√¢metros e veja se algum se alterou muito.  


3. Siga removendo as vari√°veis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor. 
    

##### Ajuste um modelo para prever log(renda) considerando todas as covari√°veis dispon√≠veis.
##### Utilizando os recursos do Patsy, coloque as vari√°veis qualitativas como dummies

In [4]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from patsy import dmatrices

# Carregar a base de dados
renda = pd.read_csv('previsao_de_renda.csv')

# Verificar nomes das colunas dispon√≠veis
print("Colunas dispon√≠veis:", renda.columns.tolist())

# Remover colunas apenas se existirem
for col in ['data_ref', 'index']:
    if col in renda.columns:
        renda = renda.drop(columns=col)

# Criar as matrizes de design (X e y)
y, X = dmatrices(
    'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego + qt_pessoas_residencia',
    data=renda, return_type='dataframe'
)

# Ajustar o modelo de regress√£o linear m√∫ltipla
modelo_completo = sm.OLS(y, X).fit()

# Exibir o resumo do modelo
print(modelo_completo.summary())

Colunas dispon√≠veis: ['Unnamed: 0', 'data_ref', 'id_cliente', 'sexo', 'posse_de_veiculo', 'posse_de_imovel', 'qtd_filhos', 'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia', 'idade', 'tempo_emprego', 'qt_pessoas_residencia', 'renda']
                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     287.5
Date:                Thu, 30 Oct 2025   Prob (F-statistic):               0.00
Time:                        14:37:14   Log-Likelihood:                -13568.
No. Observations:               12427   AIC:                         2.719e+04
Df Residuals:                   12402   BIC:                         2.737e+04
Df Model:                          24                                         
Covariance Type:            nonrobust       

O for col in ['data_ref', 'index'] garante que a fun√ß√£o s√≥ tenta excluir colunas que realmente existem no DataFrame.
O print(renda.columns.tolist()) ajuda a conferir os nomes reais das coluna.
O resto do c√≥digo continua igual, criando as vari√°veis dummies automaticamente via Patsy e ajustando o modelo de regress√£o.

##### Mantenha sempre a categoria mais frequente como casela de refer√™ncia

In [5]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from patsy import dmatrices

# Carregar a base
renda = pd.read_csv('previsao_de_renda.csv')

# Encontrar a categoria mais frequente em cada vari√°vel categ√≥rica
categoricas = ['sexo', 'posse_de_veiculo', 'posse_de_imovel', 'tipo_renda',
               'educacao', 'estado_civil', 'tipo_residencia']

for var in categoricas:
    mais_freq = renda[var].mode()[0]  # categoria mais frequente
    renda[var] = pd.Categorical(renda[var],
                                categories=[mais_freq] + [c for c in renda[var].unique() if c != mais_freq],
                                ordered=True)

# Criar as matrizes de design com Patsy ‚Äî agora com a categoria mais frequente como refer√™ncia
y, X = dmatrices(
    'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego + qt_pessoas_residencia',
    data=renda, return_type='dataframe'
)

# Ajustar o modelo
modelo = sm.OLS(y, X).fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.357
Model:                            OLS   Adj. R-squared:                  0.356
Method:                 Least Squares   F-statistic:                     287.5
Date:                Thu, 30 Oct 2025   Prob (F-statistic):               0.00
Time:                        14:50:50   Log-Likelihood:                -13568.
No. Observations:               12427   AIC:                         2.719e+04
Df Residuals:                   12402   BIC:                         2.737e+04
Df Model:                          24                                         
Covariance Type:            nonrobust                                         
                                       coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------------
Intercep

##### Avalie os par√¢metros e veja se parecem fazer sentido pr√°tico.
##### Remova a vari√°vel menos significante e analise:

In [7]:
import statsmodels.api as sm
from patsy import dmatrices

# F√≥rmula inicial com todas as vari√°veis
formula_base = 'np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao + estado_civil + tipo_residencia + idade + tempo_emprego + qt_pessoas_residencia'

def backward_elimination(formula, data, p_limite=0.05):
    y, X = dmatrices(formula, data=data, return_type='dataframe')
    modelo = sm.OLS(y, X).fit()
    
    while True:
        # P-valores do modelo
        p_valores = modelo.pvalues.drop("Intercept", errors='ignore')
        p_max = p_valores.max()
        if p_max > p_limite:
            variavel_remover = p_valores.idxmax()
            
            # Extrair apenas o nome da vari√°vel base antes de "[T."
            base_var = variavel_remover.split("[")[0]
            
            # Remover todas as dummies associadas √† vari√°vel base
            termos = formula.split("~")[1]
            termos_lista = [v.strip() for v in termos.split("+") if base_var not in v]
            nova_formula = "np.log(renda) ~ " + " + ".join(termos_lista)
            
            # Reajustar modelo
            y, X = dmatrices(nova_formula, data=data, return_type='dataframe')
            modelo = sm.OLS(y, X).fit()
            formula = nova_formula
        else:
            break
    
    return modelo, formula

# Executar o processo
modelo_final, formula_final = backward_elimination(formula_base, renda)

print("üìâ F√≥rmula final:", formula_final)
print(modelo_final.summary())

üìâ F√≥rmula final: np.log(renda) ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + idade + tempo_emprego
                            OLS Regression Results                            
Dep. Variable:          np.log(renda)   R-squared:                       0.347
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     1098.
Date:                Thu, 30 Oct 2025   Prob (F-statistic):               0.00
Time:                        14:58:16   Log-Likelihood:                -13673.
No. Observations:               12427   AIC:                         2.736e+04
Df Residuals:                   12420   BIC:                         2.741e+04
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                               coef    std err          t      P>|t|      [0.025      0.975]
-

Ap√≥s o ajuste dos modelos, o modelo reduzido apresentou melhor equil√≠brio entre simplicidade e desempenho estat√≠stico. Embora o R¬≤ ajustado tenha se mantido muito pr√≥ximo ao do modelo completo (0,347 contra 0,356), o modelo final apresentou menores valores de AIC e BIC, indicando melhor qualidade de ajuste com menor complexidade. Al√©m disso, todas as vari√°veis remanescentes ‚Äî sexo, posse de ve√≠culo, posse de im√≥vel, n√∫mero de filhos, idade e tempo de emprego ‚Äî mostraram-se estatisticamente significativas e coerentes do ponto de vista econ√¥mico, representando fatores plaus√≠veis de influ√™ncia sobre a renda. Assim, o modelo reduzido √© considerado o mais adequado por ser mais parcimonioso, interpret√°vel e robusto

##### Observe os par√¢metros e veja se algum se alterou muito.

Ao comparar os par√¢metros do modelo completo e do modelo reduzido, verifica-se que as magnitudes e os sinais dos coeficientes principais permaneceram consistentes, indicando que a exclus√£o das vari√°veis n√£o significantes n√£o alterou substancialmente as rela√ß√µes entre as vari√°veis explicativas e a renda. As pequenas varia√ß√µes observadas s√£o esperadas e refletem a redu√ß√£o da multicolinearidade, resultando em estimativas mais est√°veis e precisas. Conclui-se, portanto, que a simplifica√ß√£o do modelo preservou a coer√™ncia e a robustez dos resultados.

##### Siga removendo as vari√°veis menos significantes, sempre que o p-value for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.

Ap√≥s a remo√ß√£o iterativa das vari√°veis menos significantes (p > 0,05), o modelo final apresentou um R¬≤ ajustado ligeiramente menor (0,347 contra 0,356 no modelo inicial), por√©m valores menores de AIC e BIC, o que indica melhor equil√≠brio entre ajuste e parcim√¥nia. Al√©m disso, todos os coeficientes restantes mostraram-se estatisticamente significativos e coerentes do ponto de vista econ√¥mico.

Conclui-se que o modelo final √© mais simples, est√°vel e eficiente, mantendo poder explicativo semelhante ao modelo completo, mas com menor complexidade e maior robustez estat√≠stica