# Airbnb Rio de Janeiro - Feature engineering

# 1. Introdução

Esse notebook propõe um processo de feature engineering para os [dados do Airbnb na cidade do Rio de Janeiro](https://insideairbnb.com/get-the-data/#:~:text=Rio%20de%20Janeiro%2C%20Rio%20de%20Janeiro%2C%20Brazil). 

A base de dados original foi previamente explorada e modificada durante a etapa de [análise exploratória (EDA)](https://github.com/BPRateiro/rio-airbnb-data-analysis/blob/main/notebooks/eda.ipynb). Os dados incluem informações detalhadas sobre a disponibilidade de listagens, características dos imóveis, interações de usuários, e preços. 

O objetivo principal é transformar essas informações para melhorar a capacidade preditiva de modelos de machine learning e facilitar análises mais profundas.

## 1.1 Configurações e bibliotecas

In [6]:
import pandas as pd
from summarytools import dfSummary
from sklearn.impute import KNNImputer

## 1.2 Leitura dos dados

In [7]:
df_inicial = pd.read_parquet('../data/bronze/feature_engineering_input.parquet')
df_inicial.drop(columns=['host_location'], inplace=True) # Acredito que não será uma informação relevante
dfSummary(df_inicial)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,accommodates [int64],Mean (sd) : 4.0 (2.3) min < med < max: 1.0 < 4.0 < 16.0 IQR (CV) : 3.0 (1.7),16 distinct values,,0 (0.0%)
2,availability_365 [int64],Mean (sd) : 205.7 (114.6) min < med < max: 0.0 < 193.0 < 365.0 IQR (CV) : 232.0 (1.8),366 distinct values,,0 (0.0%)
3,availability_60 [int64],Mean (sd) : 43.9 (19.8) min < med < max: 0.0 < 54.0 < 60.0 IQR (CV) : 27.0 (2.2),61 distinct values,,0 (0.0%)
4,bathrooms [float64],Mean (sd) : 1.6 (1.0) min < med < max: 0.0 < 1.0 < 16.0 IQR (CV) : 1.0 (1.6),26 distinct values,,18 (0.1%)
5,bedrooms [float64],Mean (sd) : 1.6 (1.0) min < med < max: 0.0 < 1.0 < 26.0 IQR (CV) : 1.0 (1.5),19 distinct values,,32 (0.1%)
6,beds [float64],Mean (sd) : 2.3 (2.1) min < med < max: 0.0 < 2.0 < 50.0 IQR (CV) : 2.0 (1.1),38 distinct values,,22 (0.1%)
7,calculated_host_listings_count_entire_homes [int64],Mean (sd) : 8.1 (23.8) min < med < max: 0.0 < 1.0 < 200.0 IQR (CV) : 2.0 (0.3),57 distinct values,,0 (0.0%)
8,calculated_host_listings_count_private_rooms [int64],Mean (sd) : 0.7 (1.8) min < med < max: 0.0 < 0.0 < 23.0 IQR (CV) : 1.0 (0.4),19 distinct values,,0 (0.0%)
9,calculated_host_listings_count_shared_rooms [int64],Mean (sd) : 0.1 (1.0) min < med < max: 0.0 < 0.0 < 19.0 IQR (CV) : 0.0 (0.1),15 distinct values,,0 (0.0%)
10,days_since_first_review [float64],Mean (sd) : 1045.0 (1055.7) min < med < max: 1.0 < 628.0 < 5135.0 IQR (CV) : 1406.0 (1.0),"3,074 distinct values",,"6,464 (24.0%)"


# 2. One hot encoding

- Variáveis categóricas com múltiplas categorias com valores faltantes terão uma categoria adicional `nan` adicionada antes do processo de one hot encoding
- Variáveis binárias serão convertidas para valores numéricos (1 e 0)
- A variável `neighbourhood_cleansed` contém muitas categorias pouco frequentes. Agrupamos todas categorias que aparecem em menos de 1% dos dados na categoria `outros`

De 43 colunas inicialmente, terminamos o processo com 63 colunas. 

In [8]:
df_one_hot = df_inicial.copy()

# Calcula a frequência de cada categoria
neighbourhood_counts = df_one_hot['neighbourhood_cleansed'].value_counts(normalize=True)

# Identifica categorias que representam menos de 1%
small_neighbourhoods = neighbourhood_counts[neighbourhood_counts < 0.01].index

# Mapeia essas categorias para 'outros'
df_one_hot['neighbourhood_cleansed'] = df_one_hot['neighbourhood_cleansed'].replace(small_neighbourhoods, 'outros')

# One hot encoding
df_one_hot = pd.get_dummies(df_one_hot, drop_first=True, dummy_na=True)

# Converter colunas booleanas para 1 e 0
boolean_cols = df_one_hot.select_dtypes(include='bool').columns
df_one_hot[boolean_cols] = df_one_hot[boolean_cols].astype(int)

df_one_hot.shape

(26958, 63)

# 4. Imputação de missings

Utilizamos o KNNImputer para imputar missings em variáveis numéricas.
Normalizamos também o nome das colunas.

In [11]:
# KNNImputer
# df_knn = pd.DataFrame(KNNImputer(n_neighbors=5, copy=False).fit_transform(df_one_hot), columns=df_one_hot.columns)

# The Kernel crashed while executing code in the current cell or a previous cell. 
# Please review the code in the cell(s) to identify a possible cause of the failure. 
# Click here for more info. 
# View Jupyter log for further details.

df_knn = pd.read_parquet('../data/bronze/feature_engineering_knn.parquet')
df_knn.columns = df_knn.columns.str.lower().str.replace(' ', '_')
df_knn.to_parquet('../data/bronze/feature_engineering_output.parquet')
df_knn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26958 entries, 0 to 26957
Data columns (total 63 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   accommodates                                     26958 non-null  float64
 1   availability_365                                 26958 non-null  float64
 2   availability_60                                  26958 non-null  float64
 3   bathrooms                                        26958 non-null  float64
 4   bedrooms                                         26958 non-null  float64
 5   beds                                             26958 non-null  float64
 6   calculated_host_listings_count_entire_homes      26958 non-null  float64
 7   calculated_host_listings_count_private_rooms     26958 non-null  float64
 8   calculated_host_listings_count_shared_rooms      26958 non-null  float64
 9   days_since_first_review     

# 4. Conclusão

Aplicamos técnicas como one-hot encoding e imputação de valores ausentes com o KNNImputer, resultando em um conjunto de dados robusto e sem lacunas. Dessa forma estaremos melhor preparados para realizar análises preditivas e extrair insights significativos.