# =========================================================================================================================================
# Notebook de Exploração - Airbnb Copacabana
# Dataset: listing_mensal_curado.parquet
# =========================================================================================================================================

# 1️⃣ Importações 

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (12,6)

# 2️⃣ Carregar dataset curado

In [None]:
df = pd.read_parquet("../dados/processed/listing_mensal_curado.parquet")
df.head()

# 3️⃣ Estatísticas básicas

In [None]:
# Informações gerais
print("Número de registros:", len(df))
print("Colunas:", df.columns.tolist())
print("Tipos de dados:\n", df.dtypes)

# Estatísticas descritivas numéricas
df.describe()

# 4️⃣ Distribuição de preços

In [None]:
# Histograma de preços
sns.histplot(df['price'], bins=50, kde=True)
plt.title("Distribuição de preços")
plt.xlabel("Preço (R$)")
plt.ylabel("Quantidade de anúncios")
plt.show()

# 5️⃣ Quartos por tipo

In [None]:
sns.countplot(data=df, x='room_type', order=df['room_type'].value_counts().index)
plt.title("Distribuição de tipos de quarto")
plt.xlabel("Tipo de quarto")
plt.ylabel("Quantidade de anúncios")
plt.show()

# 6️⃣ Avaliações por nota média

In [None]:
sns.histplot(df['review_scores_rating'].dropna(), bins=20, kde=True)
plt.title("Distribuição das notas médias de avaliação")
plt.xlabel("Nota Média")
plt.ylabel("Número de anúncios")
plt.show()

# 7️⃣ Preço por tipo de quarto

In [None]:
sns.boxplot(data=df, x='room_type', y='price')
plt.title("Preço por tipo de quarto")
plt.ylabel("Preço(R$)")
plt.xlabel("Tipo de quarto")
plt.tlim(0, 2000)
plt.show()

# 8️⃣ Anúncios por bairro

In [None]:
top_bairros = df['neighbourhood_cleansed'].value_counts().nlargest(10)
sns.barplot(x=top_bairros.values, y=top_bairros.index)
plt.title("Top 10 bairros com mais anúncios")
plt.xlabel("Quantidade de anúncios")
plt.ylabel("Bairro")
plt.show()

# 9️⃣ Correlação entre avaliações e preço

In [None]:
sns.scatterplot(data=df, x='review_scores_rating', y='price')
plt.title("Correlação entre nota média e preço")
plt.xlabel("Nota média")
plt.ylabel("Preço (R$)")
plt.ylim(0, 2000)
plt.show()

# 1️⃣0️⃣ Insights rápidos (Markdown)
* Maioira dos anúncios são <b>Entire home/apt.</b>
* Preço médio gira em torno de valores típicos de Cobacabana, mas há <b> outliers altos. </b>
* Os bairros com mais anúncios são: Copacabana, Ipanema, Botafogo, Leme ...
* Existe <b> ligação fraca entre nota média e preço, </b> mas anúncios de alto preço tendem a ter melhores avaliações.