# EDA
## A ideia é: EDA gera hipóteses → Modelagem aplica as decisões.

In [None]:
# === 01 • Imports e carga dos dados tratados ===
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

DATA_PROCESSED = "../data/processed/listings_model_baseline.csv"

df = pd.read_csv(DATA_PROCESSED)
print(f"Shape: {df.shape}")
df.head(3)


In [None]:
# === 02 • Distribuição dos preços ===
plt.figure(figsize=(10,5))
sns.histplot(df["price"], bins=100, kde=True)
plt.title("Distribuição dos preços das diárias (Airbnb)")
plt.xlabel("Preço")
plt.ylabel("Frequência")
plt.show()


In [None]:
# === 03 • Estatísticas descritivas ===
df["price"].describe(percentiles=[.05,.25,.5,.75,.95])


In [None]:
# === 04 • Preço por tipo de quarto ===
plt.figure(figsize=(8,5))
sns.boxplot(data=df, x="room_type", y="price")
plt.ylim(0, 500)  # limitar para ver melhor a mediana
plt.title("Distribuição de preços por tipo de quarto")
plt.show()


In [None]:
# === 05 • Correlação entre variáveis numéricas ===
num_cols = df.select_dtypes(include=["float64","int64"]).columns
plt.figure(figsize=(12,8))
sns.heatmap(df[num_cols].corr(), annot=False, cmap="coolwarm", center=0)
plt.title("Mapa de correlação entre variáveis numéricas")
plt.show()


In [None]:
# === 06 • Mapa de calor: Preço x Localização ===
plt.figure(figsize=(10,8))
sc = plt.scatter(
    df["longitude"], df["latitude"],
    c=df["price"], cmap="viridis", alpha=0.6, s=10
)
plt.colorbar(sc, label="Preço da diária")
plt.title("Mapa de calor: preço por localização")
plt.xlabel("Longitude")
plt.ylabel("Latitude")
plt.show()
