# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda II

Vamos continuar trabalhando com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [1]:
# Importando as bibliotecas necessárias
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lasso
from sklearn.preprocessing import PolynomialFeatures
from sklearn.ensemble import RandomForestRegressor

In [2]:
# Lendo o arquivo CSV
df = pd.read_csv('previsao_de_renda.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   index                  15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12466 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  mau                    15000 non-null  bool   
 15  re

1. Separe a base em treinamento e teste (25% para teste, 75% para treinamento).
2. Rode uma regularização *ridge* com alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1] e avalie o $R^2$ na base de testes. Qual o melhor modelo?
3. Faça o mesmo que no passo 2, com uma regressão *LASSO*. Qual método chega a um melhor resultado?
4. Rode um modelo *stepwise*. Avalie o $R^2$ na vase de testes. Qual o melhor resultado?
5. Compare os parâmetros e avalie eventuais diferenças. Qual modelo você acha o melhor de todos?
6. Partindo dos modelos que você ajustou, tente melhorar o $R^2$ na base de testes. Use a criatividade, veja se consegue inserir alguma transformação ou combinação de variáveis.
7. Ajuste uma árvore de regressão e veja se consegue um $R^2$ melhor com ela.

In [4]:
# Removendo as colunas 'Unnamed: 0', 'index' e 'data_ref' 
df = df.drop(columns=['Unnamed: 0', 'index', 'data_ref'])

In [5]:
# Removendo linhas com valores faltantes (NaN)
df = df.dropna()

In [6]:
# Verificando as informações da base após as alterações
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12466 entries, 0 to 14999
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   12466 non-null  object 
 1   posse_de_veiculo       12466 non-null  bool   
 2   posse_de_imovel        12466 non-null  bool   
 3   qtd_filhos             12466 non-null  int64  
 4   tipo_renda             12466 non-null  object 
 5   educacao               12466 non-null  object 
 6   estado_civil           12466 non-null  object 
 7   tipo_residencia        12466 non-null  object 
 8   idade                  12466 non-null  int64  
 9   tempo_emprego          12466 non-null  float64
 10  qt_pessoas_residencia  12466 non-null  float64
 11  mau                    12466 non-null  bool   
 12  renda                  12466 non-null  float64
dtypes: bool(3), float64(3), int64(2), object(5)
memory usage: 1.1+ MB


In [7]:
# Separando a base de dados em variáveis independentes (X) e dependente (y)
X = df.drop('renda', axis=1)  # Removendo a coluna de renda para ser nosso y
y = df['renda']

In [8]:
# Dividindo a base de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [9]:
# Verificando os tamanhos dos conjuntos de treinamento e teste
print(f"Treinamento (X): {X_train.shape}")
print(f"Treinamento (y): {y_train.shape}")
print(f"Teste (X): {X_test.shape}")
print(f"Teste (y): {y_test.shape}")

Treinamento (X): (9349, 12)
Treinamento (y): (9349,)
Teste (X): (3117, 12)
Teste (y): (3117,)


In [10]:
# Convertendo a coluna de sexo para binário
X_train['sexo'] = X_train['sexo'].map({'M': 0, 'F': 1})
X_test['sexo'] = X_test['sexo'].map({'M': 0, 'F': 1})

In [11]:
# Fazendo codificação one-hot para as colunas categóricas
X_train = pd.get_dummies(X_train)
X_test = pd.get_dummies(X_test)

# Certificando-se de que ambas as divisões de treino e teste têm as mesmas colunas após a codificação one-hot
missing_cols = set(X_train.columns) - set(X_test.columns)
for c in missing_cols:
    X_test[c] = 0
X_test = X_test[X_train.columns]

# Conversão das colunas tipo bool para int
X_train['posse_de_veiculo'] = X_train['posse_de_veiculo'].astype(int)
X_train['posse_de_imovel'] = X_train['posse_de_imovel'].astype(int)
X_test['posse_de_imovel'] = X_test['posse_de_imovel'].astype(int)
X_train['mau'] = X_train['mau'].astype(int)

In [12]:
# Normalizar os dados antes
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Lista de valores alpha que você forneceu
alphas = [0, 0.001, 0.005, 0.01, 0.05, 0.1]

# Inicializando uma lista para armazenar os resultados de R2
r2_results = []

# Loop por cada valor de alpha
for alpha in alphas:
    # Inicializando o modelo Ridge com o valor de alpha atual
    ridge = Ridge(alpha=alpha)
    
    # Treinando o modelo com o conjunto de treinamento normalizado
    ridge.fit(X_train_scaled, y_train)
    
    # Prevendo os valores da variável dependente na base de testes
    y_pred = ridge.predict(X_test_scaled)
    
    # Calculando o R2 para as previsões
    r2 = r2_score(y_test, y_pred)
    
    # Adicionando o R2 calculado à lista de resultados
    r2_results.append(r2)

# Imprimindo os resultados
for alpha, r2 in zip(alphas, r2_results):
    print(f"Alpha: {alpha}, R2: {r2:.4f}")

Alpha: 0, R2: 0.2066
Alpha: 0.001, R2: 0.2073
Alpha: 0.005, R2: 0.2073
Alpha: 0.01, R2: 0.2073
Alpha: 0.05, R2: 0.2073
Alpha: 0.1, R2: 0.2073


## A regularização não mostrou melhorias significativas no desempenho do modelo em comparação com a regressão linear simples.

In [13]:
# Normalizar os dados antes
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Lista de valores alpha
alphas = [0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1, 10]

# Inicializando uma lista para armazenar os resultados de R2
r2_results_lasso = []

# Loop por cada valor de alpha
for alpha in alphas:
    # Inicializando o modelo Lasso com o valor de alpha atual e max_iter de 15k
    lasso = Lasso(alpha=alpha, max_iter=15000)
    
    # Treinando o modelo com o conjunto de treinamento normalizado
    lasso.fit(X_train_scaled, y_train)
    
    # Prevendo os valores da variável dependente na base de testes
    y_pred = lasso.predict(X_test_scaled)
    
    # Calculando o R2 para as previsões
    r2 = r2_score(y_test, y_pred)
    
    # Adicionando o R2 calculado à lista de resultados
    r2_results_lasso.append(r2)

# Imprimindo os resultados
for alpha, r2 in zip(alphas, r2_results_lasso):
    print(f"Alpha: {alpha}, R2: {r2:.4f}")

  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


Alpha: 0.001, R2: 0.2073
Alpha: 0.005, R2: 0.2073
Alpha: 0.01, R2: 0.2073
Alpha: 0.05, R2: 0.2073
Alpha: 0.1, R2: 0.2073
Alpha: 0.5, R2: 0.2073
Alpha: 1, R2: 0.2073
Alpha: 10, R2: 0.2074


## Observando os valores R2 fornecidos:

Ridge: O melhor R2 foi 0.2073 (com vários alphas).
Lasso: O melhor R2 foi 0.2074 (com alpha = 10).
Ambos os modelos fornecem valores muito próximos de R2. A diferença é mínima, mas, tecnicamente, o LASSO com alpha = 10 fornece um valor ligeiramente melhor de R2.

In [14]:
def stepwise_selection(X, y, initial_list=[], threshold_in=0.01, threshold_out = 0.05, verbose=True):
    """ Implementa uma seleção stepwise para p-valores.
        @param X: dataframe com os dados de entrada
        @param y: variável dependente
        @param initial_list: lista inicial de variáveis
        @param threshold_in: valor de corte para incluir uma variável
        @param threshold_out: valor de corte para remover uma variável
        @return: lista de variáveis selecionadas
    """
    included = list(initial_list)
    while True:
        changed=False
        # forward step
        excluded = list(set(X.columns)-set(included))
        new_pval = pd.Series(index=excluded, dtype='float64')
        for new_column in excluded:
            model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included+[new_column]]))).fit()
            new_pval[new_column] = model.pvalues[new_column]
        best_pval = new_pval.min()
        if best_pval < threshold_in:
            best_feature = new_pval.idxmin()
            included.append(best_feature)
            changed=True
            if verbose:
                print('Add  {:30} with p-value {:.6}'.format(best_feature, best_pval))

        # backward step
        model = sm.OLS(y, sm.add_constant(pd.DataFrame(X[included]))).fit()
        # use all coefs except intercept
        pvalues = model.pvalues.iloc[1:]
        worst_pval = pvalues.max() # null if pvalues is empty
        if worst_pval > threshold_out:
            changed=True
            worst_feature = pvalues.idxmax()
            included.remove(worst_feature)
            if verbose:
                print('Drop {:30} with p-value {:.6}'.format(worst_feature, worst_pval))
        if not changed:
            break
    return included

In [15]:
selected_features = stepwise_selection(X_train, y_train)

# Treinar o modelo usando apenas as variáveis selecionadas
model = sm.OLS(y_train, sm.add_constant(X_train[selected_features])).fit()

# Prever no conjunto de teste
y_pred = model.predict(sm.add_constant(X_test[selected_features]))

# Avaliar R2
r2_stepwise = r2_score(y_test, y_pred)
print(f"R2 (stepwise): {r2_stepwise:.4f}")

Add  tempo_emprego                  with p-value 0.0
Add  sexo                           with p-value 5.6563e-125
Add  tipo_renda_Assalariado         with p-value 1.57794e-20
Add  idade                          with p-value 2.11629e-09
Add  educacao_Superior completo     with p-value 9.12908e-11
Add  posse_de_imovel                with p-value 9.32363e-05
Add  tipo_residencia_Casa           with p-value 0.00161901
Add  tipo_renda_Servidor público    with p-value 0.00306837
Add  educacao_Pós graduação         with p-value 0.00568422
R2 (stepwise): 0.2078


## Conclusão

Todos os modelos são semelhantes para compararmos o R2. O modelo stepwise tem o valor mais alto, mas apenas marginalmente (0.2078 contra 0.2074 do modelo regularizado com alpha = 10)

In [16]:
# Suspeita sobre a variável 'idade' não ter uma relação linear
poly = PolynomialFeatures(degree=2, include_bias=False)
idade_transformed = poly.fit_transform(df[['idade']])

# Adicionando as novas colunas ao dataframe
df['idade'] = idade_transformed[:, 0]  # Esta é a coluna original
df['idade^2'] = idade_transformed[:, 1]
df['log_renda'] = np.log(df['renda'] + 1)  # Adicionamos 1 para evitar o log de 0
df['renda_tempo_emprego'] = df['renda'] * df['tempo_emprego']
df['renda_idade2'] = df['renda'] * df['idade^2']

In [17]:
# Checando se há valores infinitos em renda
print((np.isinf(df['renda'])).sum())

0


In [19]:
# Agora tratando outliers e selecionando apenas colunas numéricas
numeric_cols = df.select_dtypes(include=[np.number])

Q1 = numeric_cols.quantile(0.25)
Q3 = numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Para cada coluna numérica, remova os outliers
for col in numeric_cols.columns:
    df = df[~((df[col] < (Q1[col] - 1.5 * IQR[col])) | (df[col] > (Q3[col] + 1.5 * IQR[col])))]

In [20]:
# Garantindo que as variáveis estejam em uma escala similar
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [24]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# Treinando o modelo
regressor = RandomForestRegressor()  # Usando os hiperparâmetros padrão inicialmente
regressor.fit(X_train_scaled, y_train)

# Avaliando o modelo no conjunto de teste
y_pred = regressor.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
rmse = np.sqrt(mse)
print(f"Erro Quadrático Médio da Raiz (RMSE): {rmse:.2f}")

Erro Quadrático Médio (MSE): 17998834.18
Erro Quadrático Médio da Raiz (RMSE): 4242.50


In [26]:
# 1. Importando o regressor da árvore de decisão
from sklearn.tree import DecisionTreeRegressor

# 2. Criando uma instância do regressor
tree_regressor = DecisionTreeRegressor()

# 3. Treinando o regressor com os dados de treinamento
tree_regressor.fit(X_train_scaled, y_train)

# 4. Avaliando o modelo no conjunto de testes
y_pred_tree = tree_regressor.predict(X_test_scaled)

# Calculando R^2
r2_tree = r2_score(y_test, y_pred_tree)

print(f"R^2 da Árvore de Regressão: {r2_tree:.2f}")

R^2 da Árvore de Regressão: 0.18


## Conclusão

Ridge e Lasso (ambos com R2 de cerca de 0.207) estão melhores do que a Árvore de Regressão com R2 de 0.17.