# EDA
## A ideia √©: EDA gera hip√≥teses ‚Üí Modelagem aplica as decis√µes.

In [None]:
# === 01 ‚Ä¢ Imports e carga dos dados tratados ===
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

DATA_PROCESSED = "../data/processed/listings_model_baseline.csv"

df = pd.read_csv(DATA_PROCESSED)
print(f"Shape: {df.shape}")
df.head(3)


In [None]:
# === 02 ‚Ä¢ Distribui√ß√£o dos pre√ßos ===
plt.figure(figsize=(10,5))
sns.histplot(df["price"], bins=100, kde=True)
plt.title("Distribui√ß√£o dos pre√ßos das di√°rias (Airbnb)")
plt.xlabel("Pre√ßo")
plt.ylabel("Frequ√™ncia")
plt.show()


## üîπ O que o gr√°fico mostra

No eixo X (horizontal): os valores de pre√ßo da di√°ria (em d√≥lares).

No eixo Y (vertical): a frequ√™ncia de quantos an√∫ncios t√™m aquele pre√ßo.

As barras formam o histograma, e a linha azul √© a densidade estimada (KDE), que suaviza a curva da distribui√ß√£o.

üîπ Interpreta√ß√£o

Distribui√ß√£o assim√©trica (cauda longa √† direita)

A maior parte das di√°rias est√° concentrada entre 50 e 200 d√≥lares.

Mas h√° uma cauda longa: ainda existem an√∫ncios com pre√ßos muito mais altos (600, 1000, at√© 1300+).

Moda clara (pico principal)

O pico entre 100‚Äì150 d√≥lares mostra onde est√° a maior frequ√™ncia de pre√ßos anunciados.

Isso indica o ‚Äúvalor t√≠pico‚Äù praticado pela maioria dos hosts.

Outliers evidentes

Apesar de poucos, existem an√∫ncios com pre√ßos fora do padr√£o (valores acima de 800‚Äì1000 d√≥lares).

Esses outliers podem distorcer modelos de regress√£o se n√£o forem tratados.

üîπ Implica√ß√µes para o modelo

Transforma√ß√£o logar√≠tmica pode ser √∫til (log(price+1)) ‚Üí ajuda a reduzir o impacto da cauda longa e facilita o ajuste de regress√£o.

Remover ou limitar outliers (winsorizar, por exemplo cortando no percentil 99) ‚Üí evita que pre√ßos absurdos ‚Äúpuxem‚Äù o modelo para cima.

Feature engineering: talvez valha calcular m√©tricas baseadas no pre√ßo por pessoa (price/accommodates) para normalizar an√∫ncios com capacidades muito diferentes.

In [None]:
# === 03 ‚Ä¢ Estat√≠sticas descritivas ===
df["price"].describe(percentiles=[.05,.25,.5,.75,.95])


In [None]:
# === 04 ‚Ä¢ Pre√ßo por tipo de quarto ===
plt.figure(figsize=(8,5))
sns.boxplot(data=df, x="room_type", y="price")
plt.ylim(0, 500)  # limitar para ver melhor a mediana
plt.title("Distribui√ß√£o de pre√ßos por tipo de quarto")
plt.show()


## üîπ O que o gr√°fico mostra

Cada caixa representa a distribui√ß√£o dos pre√ßos para um tipo de quarto.

A linha dentro da caixa = mediana (valor central).

As bordas da caixa = 1¬∫ e 3¬∫ quartis (50% dos dados est√£o ali).

Os ‚Äúbigodes‚Äù = valores dentro de 1.5√óIQR (intervalo interquart√≠lico).

Pontos fora dos bigodes = outliers.

üîπ Interpreta√ß√£o por categoria

Private room

Mediana em torno de 80‚Äì100 d√≥lares.

Grande concentra√ß√£o de valores baixos.

Muitos outliers acima de 200‚Äì400 d√≥lares, mas s√£o exce√ß√µes.

Entire home/apt

Mediana mais alta, em torno de 140‚Äì160 d√≥lares.

Caixa mais ‚Äúesticada‚Äù, indicando grande varia√ß√£o de pre√ßos.

Muitos outliers, incluindo valores acima de 400 d√≥lares.

√â esperado: casas/apartamentos inteiros variam bastante conforme tamanho/localiza√ß√£o.

Hotel room

Mediana em torno de 160 d√≥lares, levemente acima de Entire home/apt.

Distribui√ß√£o menos espalhada, mas ainda com alguns outliers (~400).

Mostra que quartos de hotel tendem a ter pre√ßo mais est√°vel que apartamentos.

Shared room

Valores muito mais baixos (mediana ~50 d√≥lares).

Pouca varia√ß√£o ‚Üí todos est√£o em uma faixa parecida.

Esse tipo √© bem mais acess√≠vel e previs√≠vel.

üîπ Insights para o modelo

O tipo de quarto √© um forte preditor de pre√ßo ‚Üí deve ser mantido como feature categ√≥rica no modelo.

Outliers de Entire home/apt e Private room confirmam a necessidade de tratar pre√ßos extremos (sen√£o o modelo pode tentar ‚Äúexplicar‚Äù valores muito fora da curva).

Talvez valha a pena criar um feature derivado como relative_price = price / median_price_by_room_type, para normalizar diferen√ßas entre categorias.

In [None]:
# === 05 ‚Ä¢ Correla√ß√£o entre vari√°veis num√©ricas ===
num_cols = df.select_dtypes(include=["float64","int64"]).columns
plt.figure(figsize=(12,8))
sns.heatmap(df[num_cols].corr(), annot=False, cmap="coolwarm", center=0)
plt.title("Mapa de correla√ß√£o entre vari√°veis num√©ricas")
plt.show()


In [None]:
# === 06 ‚Ä¢ Mapa de calor: Pre√ßo x Localiza√ß√£o ===
plt.figure(figsize=(10,8))
sc = plt.scatter(
    df["longitude"], df["latitude"],
    c=df["price"], cmap="viridis", alpha=0.6, s=10
)
plt.colorbar(sc, label="Pre√ßo da di√°ria")
plt.title("Mapa de calor: pre√ßo por localiza√ß√£o")
plt.xlabel("Longitude")
plt.ylabel("Latitude")
plt.show()


## üîπ O que o gr√°fico mostra

Cada c√©lula representa a correla√ß√£o de Pearson entre duas vari√°veis.

Valores v√£o de -1 a 1:

+1 ‚Üí correla√ß√£o perfeita positiva (quando uma cresce, a outra tamb√©m).

-1 ‚Üí correla√ß√£o perfeita negativa (quando uma cresce, a outra diminui).

0 ‚Üí sem correla√ß√£o linear significativa.

A escala de cores vai do azul (negativa) ao vermelho (positiva).

üîπ Interpreta√ß√£o dos resultados principais

Correla√ß√£o forte entre vari√°veis de capacidade

accommodates, bedrooms, bathrooms, beds ‚Üí apresentam correla√ß√µes altas (vermelho intenso).

Faz sentido: quanto mais pessoas o im√≥vel acomoda, mais quartos/camas/banheiros tende a ter.

Isso sugere redund√¢ncia ‚Üí incluir todas pode gerar multicolinearidade; talvez seja bom selecionar s√≥ algumas.

Pre√ßo e capacidade

price tem correla√ß√£o positiva com accommodates, bedrooms e beds.

Confirma a intui√ß√£o: im√≥veis maiores costumam ser mais caros.

Pre√ßo e localiza√ß√£o

latitude e longitude t√™m correla√ß√£o baixa com price.

Isso n√£o significa que localiza√ß√£o n√£o importa, mas sim que a rela√ß√£o n√£o √© linear (pode ser captada melhor com modelos de √°rvore).

Pre√ßo e reviews

number_of_reviews e reviews_per_month n√£o t√™m correla√ß√£o clara com pre√ßo (pr√≥ximas de zero).

Ou seja, a popularidade n√£o define diretamente o valor da di√°ria.

Notas de avalia√ß√£o

review_scores_rating tamb√©m n√£o mostra correla√ß√£o forte com pre√ßo ‚Üí h√≥spedes avaliam qualidade, mas n√£o necessariamente pre√ßo.

Vari√°veis de noites m√≠nimas/m√°ximas

minimum_nights e maximum_nights n√£o se correlacionam fortemente com pre√ßo ‚Üí hosts podem configurar esses valores de forma arbitr√°ria.

Vari√°veis bin√°rias (instant_bookable, host_is_superhost)

Correla√ß√µes fracas com pre√ßo.

Isso indica que disponibilidade imediata ou ser superhost n√£o alteram diretamente o pre√ßo, mas podem influenciar a procura.

üîπ Implica√ß√µes para o modelo

Feature selection:

Devemos avaliar se usamos todas as vari√°veis altamente correlacionadas (bedrooms, beds, accommodates) ou escolhemos apenas algumas para evitar redund√¢ncia.

Localiza√ß√£o:

Embora correla√ß√£o linear seja baixa, modelos n√£o lineares (como Random Forest ou XGBoost) podem capturar melhor o impacto geogr√°fico.

Foco inicial:

Para o modelo baseline, vari√°veis de capacidade e tipo de quarto j√° devem explicar boa parte da variabilidade do pre√ßo.