# House Prices 2
Competição do Kaggle sobre a previsão de preço das casa na cidade de Ames, Iowa (Estados Unidos).
Essa é uma segunda resolução deste problema presente aqui no meu portfólio. A intenção aqui é utilizar pipelines e técnicas de feature selection para a otimização dos modelos.

# Importando bibliotecas

In [None]:
# Para tratar os dados
import pandas as pd
import numpy as np

# Pré-processamento
from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer # pipeline com colunas de tipos diferentes
from sklearn.impute import SimpleImputer # missing
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OrdinalEncoder # escala das features / tratar categóricas numéricas
from category_encoders import TargetEncoder, OneHotEncoder # tratamento de categóricas
from sklearn.feature_selection import SelectKBest, mutual_info_classif, f_regression # selecao de features

# Modelagem
import lightgbm as lgb
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsRegressor

# Métricas de avaliação
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
# Importando o dataset de treino
houses_train = pd.read_csv('train.csv')
houses_test = pd.read_csv('test.csv')

In [None]:
houses_train.head()

In [None]:
houses_train.shape

In [None]:
houses_train.info()

# Explorando os dados

In [None]:
# Vamos verificar a quantidade de valores vazios
houses_train.isnull().sum().sort_values(ascending=False).head(20)

In [None]:
# Em porcentagem
(houses_train.isnull().sum()/houses_train.shape[0]).sort_values(ascending=False).head(20)

In [None]:
# Podemos eliminar as colunas com mais de 20% de valores vazios
eliminar = houses_train.columns[(houses_train.isnull().sum() / houses_train.shape[0]) > 0.2]
eliminar

In [None]:
# Eliminando essas colunas tanto do dataset de treino quanto do dataset de teste
houses_train.drop(eliminar, axis=1, inplace=True)
houses_test.drop(eliminar, axis=1, inplace=True)

In [None]:
(houses_train.isnull().sum()/houses_train.shape[0]).sort_values(ascending=False).head(20)

In [None]:
houses_train.head()

In [None]:
# Vamos eliminar também o Id, já que essa coluna é irrelevante
houses_train.drop('Id', axis=1, inplace=True)

In [None]:
# Verificando se há duplicatas nos dados de treino
houses_train.duplicated().sum()

In [None]:
# Verificando se há duplicatas nos dados de teste
houses_test.duplicated().sum()

Até o momento, removemos algumas colunas que possuíam uma porcentagem alta de valores nulos e também confirmamos que não há duplicatas em nosso conjunto de dados.

# Verificando outliers

In [None]:
# Verificando quais são as colunas numéricas. Vamos aproveitar pra criar a lista de categóricas também.

numerical_columns = houses_train.select_dtypes(include="number").columns.to_list()
categorical_columns = houses_train.select_dtypes(exclude="number").columns.to_list()

In [None]:
print(numerical_columns)

In [None]:
print(categorical_columns)

In [None]:
# Detectando outliers

nomes_colunas = []
qtt_outliers = []

for i in numerical_columns:
    
    contador = 0
    
    q1 = np.quantile(houses_train[i], 0.25) # primeiro quartil
    q3 = np.quantile(houses_train[i], 0.75) # terceiro quartil
    li = q1 - 1.5*(q3-q1) # limite inferior
    ls = q3 + 1.5*(q3-q1) # limite superior
    
    for j in houses_train.index:
        if li <= houses_train[i][j] <= ls:
            pass
        else:
            contador += 1
    
    perc_outliers = (contador / houses_train[i].count())*100 # porcentagem da quantidade de outliers nessa coluna
    
    nomes_colunas.append(i)
    qtt_outliers.append(perc_outliers)

In [None]:
print(nomes_colunas)

In [None]:
outliers = pd.DataFrame()
outliers['coluna'] = nomes_colunas
outliers['perc_outliers'] = qtt_outliers
outliers.sort_values(by='perc_outliers', ascending=False)

Há três colunas com uma porcentagem muito alta de outliers. Vamos dar uma olhada em seus valores e tentar descobrir se eles realmente fazem sentido ou devemos excluí-las.

In [None]:
outlier_alto = outliers[outliers['perc_outliers'] > 90]

In [None]:
outlier_alto

In [None]:
for column in outlier_alto['coluna']:
    print('Coluna: ' + column)
    print(f'Média: {houses_train[column].mean()}')
    print(f'Mediana: {houses_train[column].median()}')
    print(f'Min: {houses_train[column].min()}')
    print(f'Max: {houses_train[column].max()}')
    print('---------------------------------\n')

A coluna 'LotFrontage' se refere à medida de pés lineares de rua conectada à casa. A coluna 'MasVnrArea' se refere à área folheada de alvenaria em pés quadrados. A coluna 'GarageYrBlt' se refere ao ano em que a garagem foi construída. 

Olhando essas medias e a descrição de cada coluna, é possível notar que faz sentido os intervalos desses valores variarem de tal forma. Vamos então considerar que esses outliers de fato são valores reais do nosso conjunto de dados.

# Tratando variáveis categóricas ordinais

* Verificando a descrição das variáveis no Kaggle, podemos ver quais categóricas são ordinais, então vamos tratá-las agora. Nesse caso, como estamos apenas substituindo os seus valores por um número correspondente sem usar nenhuma informação de outra linha ou coluna, não teremos o risco de data leakage. 
* Obs.: Estamos desconsiderando as colunas que já excluímos anteriormente.

In [None]:
categ_ordinais_na_to_ex = ['ExterQual', 'ExterCond', 'BsmtQual', 'BsmtCond',
                  'HeatingQC', 'KitchenQual', 'GarageQual',
                  'GarageCond',]

for column in categ_ordinais_na_to_ex:
    houses_train[column] = houses_train[column].map({'Po':2, 'Fa':3, 'TA':5, 'Gd':7, 'Ex': 9})
    houses_train[column].fillna(0, inplace=True)
    houses_test[column] = houses_test[column].map({'Po':2, 'Fa':3, 'TA':5, 'Gd':7, 'Ex': 9})
    houses_test[column].fillna(0, inplace=True)

houses_train['CentralAir'] = houses_train['CentralAir'].map({'N' :0, 'Y':1})
houses_test['CentralAir'] = houses_test['CentralAir'].map({'N' :0, 'Y':1})

# Criando os modelos

In [None]:
# Vamos selecionar X e y
X = houses_train.drop('SalePrice', axis=1)
y = houses_train.SalePrice

In [None]:
# Separando entre treino e validação. Os dados de teste estão no dataset houses_test
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.30, random_state=42)

In [None]:
print(f"X_train shape: {X_train.shape}")
print(f"X_val shape: {X_val.shape}")
print(f"y_train shape: {y_train.shape}")
print(f"y_val shape: {y_val.shape}")

In [None]:
# Vamos remover a coluna SalePrice da nossa lista de colunas numéricas, já que ela é o nosso target
numerical_columns = [feature for feature in numerical_columns if feature != 'SalePrice']
print(numerical_columns)

In [None]:
# Instancia os modelos
lgb_model = lgb.LGBMRegressor()
lr_model = LinearRegression()
rf_model =  RandomForestClassifier()
knn_model = KNeighborsRegressor(n_neighbors=5)

# Preparando os pipelines
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', TargetEncoder())
])

preprocessor = ColumnTransformer(transformers=[
    ('num', numerical_transformer, numerical_columns),
    ('cat', categorical_transformer, categorical_columns)
])

# Testando o LGBM

In [None]:
pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('lgbm', lgb_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

# Testando a Regressão Linear

In [None]:
pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('linear_regression', lr_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

# Testando a Random Forest

In [None]:
pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('random_forest', rf_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

# Testando o KNN

In [None]:
pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('KNN', knn_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

Como pudemos ver, o LGBM foi o modelo que obteve o melhor resultado. Então vamos fazer alguns testes de feature selection com ele e ver se conseguimos melhorar ainda mais as métricas de avaliação.

# Exclusão de features constantes

In [None]:
from feature_engine.selection import DropConstantFeatures

pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('drop_constant_features', DropConstantFeatures()),
    ('lgbm', lgb_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

Pelo que pudemos ver, não houve nenhuma mudança nas métricas. Vamos tentar outro método então.

# Exclusão de features correlacionadas

In [None]:
from feature_engine.selection import DropCorrelatedFeatures

pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('drop_correlated_features', DropCorrelatedFeatures()),
    ('lgbm', lgb_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

Também não houve nenhuma mudança significativa. Vamos seguir tentando.

# Exclusão de features correlacionadas com SmartCorrelatedSelection

In [None]:
from feature_engine.selection import SmartCorrelatedSelection

scs = SmartCorrelatedSelection(
    method='spearman',
    threshold=0.8,
    missing_values='raise',
    selection_method='variance'
)

pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('smart_correlated_selection', scs),
    ('lgbm', lgb_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de validação para avaliar o desempenho
y_pred = pipe.predict(X_val)

# Avalia o modelo
mse = mean_squared_error(y_val, y_pred)
mae = mean_absolute_error(y_val, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_val, y_pred)

print(f'Mean Squared Error (MSE) test:  {mse:.4f}')
print(f'Root Mean Squared Error (RMSE) test:  {rmse:.4f}')
print(f'Mean Absolute Error (MAE) test:  {mae:.4f}')
print(f'R-squared (R2) test:  {r2:.4f}')

Também não houve uma grande mudança, mas podemos ver que o modelo teve uma pequena melhora.
Há outras maneiras de fazer a seleção de features e melhorar nosso modelo. Mas por ora, vamos testar o desempenho nos dados de teste e ver como fica nossa pontuação no Kaggle.

In [None]:
from feature_engine.selection import SmartCorrelatedSelection

scs = SmartCorrelatedSelection(
    method='spearman',
    threshold=0.8,
    missing_values='raise',
    selection_method='variance'
)

pipe = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('smart_correlated_selection', scs),
    ('lgbm', lgb_model)
])

# Treina o modelo
pipe.fit(X_train, y_train)

# Cria predições nos dados de teste
y_pred = pipe.predict(houses_test)

In [None]:
y_pred.shape