### Limpeza e Tratamento do Dataset

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("data/raw/hotel_bookings.csv")
df.info()

In [None]:
# Eliminando duplicatas

duplicated = df.duplicated().sum()
print(duplicated)
df.drop_duplicates(inplace=True)

In [None]:
# Dataset sem as linhas com 0 hóspedes
df_limpo = df[(df['adults'] > 0) | (df['children'] > 0) | (df['babies'] > 0)].copy()
print(len(df))
print(len(df_limpo))

In [None]:
# Preenchendo os valores nulos com o valor '0'
df_limpo['company'] = df_limpo['company'].fillna(0)
df_limpo['agent'] = df_limpo['agent'].fillna(0)

In [None]:
## Identificando valores ausentes na coluna 'country'
df_limpo.info()
df_limpo["country"].isnull().sum()

In [None]:
# Substituindo valores nulos pela moda da coluna
moda_country = df_limpo['country'].mode()[0]
df_limpo['country'] = df_limpo['country'].fillna(moda_country)

In [None]:
## Tratando coluna 'adr' com valores negativos e iguais a 0

adr_negativo = df[df['adr'] < 0]
adr_zero = df[df['adr'] == 0]

# Excluindo linhas com valores menores ou iguais a zero.
df_limpo = df_limpo[(df_limpo['adr']) > 0].copy()
df_limpo.describe()

In [None]:
### Engenharia de Feature

## Disitribuição estatística da coluna 'adr'
descritivo_adr = df_limpo['adr'].describe()

q1 = descritivo_adr['25%']  # 74.0
q2 = descritivo_adr['50%']  # 99.0
q3 = descritivo_adr['75%']  # 135.0

bins = [-float('inf'), q1, q2, q3, float('inf')]
labels = ['Econômica', 'Padrão', 'Premium', 'Luxo']

In [None]:
## Criando a coluna 'faixa_preco'
df_limpo['faixa_preco'] = pd.cut(df_limpo['adr'], bins=bins, labels=labels, right=False)

In [None]:
# Salvando dataset tratado
df_limpo.to_csv("data/processed/hotel_bookings_cleaned.csv")