In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pymongo import MongoClient
from pathlib import Path

# üìÇ Carpeta donde se guardar√°n los gr√°ficos
reports_path = Path.cwd().parent / "reports"
reports_path.mkdir(parents=True, exist_ok=True)

# üçÉ Conexi√≥n a MongoDB
client = MongoClient("mongodb://localhost:27017/")
db = client["TurismoPeru_2025"]
coleccion = db["Visitantes"]

# üì• Extraer datos desde MongoDB
df = pd.DataFrame(list(coleccion.find()))
print(f"‚úÖ Registros cargados desde MongoDB: {len(df)}")

# Asegurar tipos de datos correctos
df["fecha_visita"] = pd.to_datetime(df["fecha_visita"], errors="coerce")
df["mes"] = df["fecha_visita"].dt.month_name()

# =========================
# 1Ô∏è‚É£ Visitantes por regi√≥n
# =========================
plt.figure(figsize=(10,5))
sns.countplot(data=df, x="region", order=df["region"].value_counts().index)
plt.title("Cantidad de visitantes por regi√≥n")
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig(reports_path / "1_visitantes_por_region.png")
plt.show()

# =========================
# 2Ô∏è‚É£ Pa√≠s de origen (Gr√°fico circular)
# =========================
plt.figure(figsize=(8,8))
df["pais_origen"].value_counts().head(10).plot.pie(autopct="%1.1f%%")
plt.title("Distribuci√≥n de visitantes por pa√≠s de origen")
plt.ylabel("")
plt.tight_layout()
plt.savefig(reports_path / "2_pais_origen.png")
plt.show()

# =========================
# 3Ô∏è‚É£ Tendencia mensual (l√≠nea temporal)
# =========================
plt.figure(figsize=(10,5))
df.groupby("mes").size().reindex([
    "January", "February", "March", "April", "May", "June",
    "July", "August", "September", "October", "November", "December"
]).plot(marker="o")
plt.title("Tendencia de visitas por mes (2025)")
plt.xlabel("Mes")
plt.ylabel("Cantidad de visitantes")
plt.tight_layout()
plt.savefig(reports_path / "3_tendencia_mensual.png")
plt.show()

# =========================
# 4Ô∏è‚É£ Histograma del gasto total
# =========================
plt.figure(figsize=(8,5))
sns.histplot(df["gasto_total"], bins=30, kde=True)
plt.title("Distribuci√≥n del gasto total de visitantes")
plt.xlabel("Gasto total (S/.)")
plt.tight_layout()
plt.savefig(reports_path / "4_histograma_gasto.png")
plt.show()

# =========================
# 5Ô∏è‚É£ Dispersi√≥n: gasto vs d√≠as de estad√≠a
# =========================
plt.figure(figsize=(8,5))
sns.scatterplot(data=df, x="dias_estadia", y="gasto_total", alpha=0.6)
plt.title("Relaci√≥n entre gasto y d√≠as de estad√≠a")
plt.xlabel("D√≠as de estad√≠a")
plt.ylabel("Gasto total (S/.)")
plt.tight_layout()
plt.savefig(reports_path / "5_scatter_gasto_dias.png")
plt.show()

print(f"\nüìÅ Gr√°ficos guardados en: {reports_path}")
