# Airbnb Rio de Janeiro - Feature engineering

# 1. Introdução

Esse notebook propõe um processo de feature engineering para os [dados do Airbnb na cidade do Rio de Janeiro](https://insideairbnb.com/get-the-data/#:~:text=Rio%20de%20Janeiro%2C%20Rio%20de%20Janeiro%2C%20Brazil). 

A base de dados original foi previamente explorada e modificada durante a etapa de [análise exploratória (EDA)](https://github.com/BPRateiro/rio-airbnb-data-analysis/blob/main/notebooks/eda.ipynb). Os dados incluem informações detalhadas sobre a disponibilidade de listagens, características dos imóveis, interações de usuários, e preços. 

O objetivo principal é transformar essas informações para melhorar a capacidade preditiva de modelos de machine learning e facilitar análises mais profundas.

## 1.1 Configurações e bibliotecas

In [1]:
import sys
import os
sys.path.append(os.path.abspath('..'))

import pandas as pd
pd.set_option("future.no_silent_downcasting", True)
from summarytools import dfSummary
from sklearn.pipeline import Pipeline

from rio_airbnb.features import PreProcessamento, SepararOutliersIQR, RemoverFeaturesCorrelacionadas, OneHotImputer, KNNImputerTransformer

[32m2024-10-01 09:38:30.578[0m | [1mINFO    [0m | [36mrio_airbnb.config[0m:[36m<module>[0m:[36m11[0m - [1mPROJ_ROOT path is: C:\Bruno\Projects\rio-airbnb-data-analysis[0m


## 1.2 Leitura dos dados

In [2]:
df_train_raw = pd.read_parquet('../data/bronze/listings_train.parquet')

# Mesmas etapas do EDA
pipeline_eda = Pipeline(steps=[
    ('pre_processamento', PreProcessamento()),
    ('remover_outliers', SepararOutliersIQR(coluna='price')),
    ('remover_corr', RemoverFeaturesCorrelacionadas())
])
df_train_eda = pipeline_eda.fit_transform(df_train_raw)

# Cheque se o resultado é o mesmo
if df_train_eda.equals(pd.read_parquet('../data/bronze/feature_engineering_input.parquet')):
    print('O pipeline equivale às etapas do EDA')
else: 
    print('O pipeline NÃO equivale às etapas do EDA')

dfSummary(df_train_eda)

O pipeline equivale às etapas do EDA


No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,accommodates [int64],Mean (sd) : 3.7 (2.0) min < med < max: 1.0 < 4.0 < 16.0 IQR (CV) : 2.0 (1.9),16 distinct values,,0 (0.0%)
2,availability_365 [int64],Mean (sd) : 200.4 (113.3) min < med < max: 0.0 < 181.0 < 365.0 IQR (CV) : 215.0 (1.8),366 distinct values,,0 (0.0%)
3,availability_60 [int64],Mean (sd) : 43.3 (19.9) min < med < max: 0.0 < 53.0 < 60.0 IQR (CV) : 28.0 (2.2),61 distinct values,,0 (0.0%)
4,bathrooms [float64],Mean (sd) : 1.4 (0.7) min < med < max: 0.0 < 1.0 < 16.0 IQR (CV) : 1.0 (1.9),20 distinct values,,17 (0.1%)
5,bedrooms [float64],Mean (sd) : 1.4 (0.8) min < med < max: 0.0 < 1.0 < 26.0 IQR (CV) : 1.0 (1.7),16 distinct values,,30 (0.1%)
6,beds [float64],Mean (sd) : 2.1 (1.8) min < med < max: 0.0 < 2.0 < 50.0 IQR (CV) : 2.0 (1.2),30 distinct values,,18 (0.1%)
7,calculated_host_listings_count_entire_homes [int64],Mean (sd) : 7.9 (23.8) min < med < max: 0.0 < 1.0 < 200.0 IQR (CV) : 2.0 (0.3),57 distinct values,,0 (0.0%)
8,calculated_host_listings_count_private_rooms [int64],Mean (sd) : 0.8 (1.9) min < med < max: 0.0 < 0.0 < 23.0 IQR (CV) : 1.0 (0.4),19 distinct values,,0 (0.0%)
9,calculated_host_listings_count_shared_rooms [int64],Mean (sd) : 0.1 (1.1) min < med < max: 0.0 < 0.0 < 19.0 IQR (CV) : 0.0 (0.1),15 distinct values,,0 (0.0%)
10,days_since_first_review [float64],Mean (sd) : 1032.5 (1049.7) min < med < max: 1.0 < 621.0 < 5135.0 IQR (CV) : 1406.0 (1.0),"3,007 distinct values",,"5,011 (20.7%)"


# 2. One hot encoding

- Variáveis categóricas com múltiplas categorias com valores faltantes terão uma categoria adicional `nan` adicionada antes do processo de one hot encoding
- Variáveis binárias serão convertidas para valores numéricos (1 e 0)

De 41 colunas inicialmente, terminamos o processo com 44 colunas. 

In [3]:
df_train_onehot = OneHotImputer().fit_transform(df_train_eda)
df_train_onehot.shape

(24255, 44)

# 3. Imputação de missings

Utilizamos o KNNImputer para imputar missings em variáveis numéricas.
Normalizamos também o nome das colunas.

In [4]:
# KNNImputer
knn_imputer = KNNImputerTransformer(n_neighbors=5, copy=False, salvar=True, parquet_path='../data/silver/fe_train_output.parquet')
df_train_knn = knn_imputer.fit_transform(df_train_onehot)

if df_train_knn.isnull().values.any():
    print("O dataframe contém valores nulos.")
else:
    print("O dataframe não contém valores nulos.")

O dataframe não contém valores nulos.


# 4. Aplicação do pipeline no dataset de teste

Podemos aplicar todas etapas de uma vez no conjunto de teste com um único pipeline

In [5]:
# Criar o pipeline completo
pipeline_completo = Pipeline(steps=[
    ('pre_processamento', PreProcessamento()),             # Passo de pré-processamento
    ('remover_outliers', SepararOutliersIQR(coluna='price')), # Remover outliers
    ('remover_corr', RemoverFeaturesCorrelacionadas()),    # Remover colunas correlacionadas
    ('one_hot_encoding', OneHotImputer()),                 # Aplicar One-Hot Encoding
    ('knn_imputer', KNNImputerTransformer(salvar=True, parquet_path='../data/silver/fe_train_output.parquet')) # Aplicar KNN Imputer
])

df_train_knn = pipeline_completo.fit_transform(df_train_raw)

# Aplicar o pipeline no conjunto de teste
df_test_raw = pd.read_parquet('../data/bronze/listings_test.parquet')
pipeline_completo.named_steps['knn_imputer'].set_parquet_path('../data/silver/fe_test_output.parquet')
df_test_knn = pipeline_completo.transform(df_test_raw)

# 5. Conclusão

Aplicamos técnicas como one-hot encoding e imputação de valores ausentes com o KNNImputer, resultando em um conjunto de dados robusto e sem lacunas. Dessa forma estaremos melhor preparados para realizar análises preditivas e extrair insights significativos.