In [1]:
import pandas as pd
from pymongo import MongoClient

# 1Ô∏è‚É£ Conexi√≥n a MongoDB (aseg√∫rate de que el servicio est√© corriendo)
client = MongoClient("mongodb://localhost:27017/")

# 2Ô∏è‚É£ Crear base de datos y colecci√≥n seg√∫n el examen
db = client["TurismoPeru_2025"]          # Nombre de la base de datos
collection = db["Visitantes"]             # Nombre de la colecci√≥n

# 3Ô∏è‚É£ Cargar datos limpios desde CSV
df = pd.read_csv("../database/visitantes_clean.csv")

# 4Ô∏è‚É£ Convertir DataFrame a lista de diccionarios (formato JSON para MongoDB)
data = df.to_dict(orient="records")

# 5Ô∏è‚É£ Insertar en MongoDB (primero limpiar colecci√≥n si ya existe, opcional)
collection.delete_many({})  # Elimina todos los documentos anteriores (√∫til para pruebas)
collection.insert_many(data)

print("‚úÖ Datos insertados en MongoDB correctamente.")
print(f"üìÅ Base de datos: TurismoPeru_2025 | Colecci√≥n: Visitantes | Registros: {len(data)}")

# ==============================================================================
# üîç CONSULTAS DE EJEMPLO (contexto tur√≠stico)
# ==============================================================================

## ‚úÖ A. Mostrar todos los documentos (solo los primeros 3 para no saturar)
print("\nüîç A. Primeros 3 documentos completos:")
for doc in collection.find().limit(3):
    print(doc)

## ‚úÖ B. Mostrar solo algunos campos: regi√≥n y destino
print("\nüîç B. Regi√≥n y destino de los visitantes:")
for doc in collection.find({}, {"_id": 0, "region": 1, "destino": 1}).limit(5):
    print(doc)

## ‚úÖ C. Consultar visitantes extranjeros (pa√≠s de origen ‚â† Per√∫)
print("\nüîç C. Visitantes extranjeros (primeros 5):")
consulta_extranjeros = {"pais_origen": {"$ne": "Per√∫"}}
for doc in collection.find(consulta_extranjeros, {"_id": 0, "pais_origen": 1, "region": 1, "gasto_total": 1}).limit(5):
    print(doc)

## ‚úÖ D. Filtrar por gasto alto (gasto_total > 3000)
print("\nüîç D. Visitantes con gasto mayor a 3000 USD:")
consulta_gasto_alto = {"gasto_total": {"$gt": 3000}}
for doc in collection.find(consulta_gasto_alto, {"_id": 0, "id_visitante": 1, "gasto_total": 1, "region": 1}).limit(5):
    print(doc)

## ‚úÖ E. Contar total de registros
total = collection.count_documents({})
print(f"\nüîç E. Total de visitantes en la base: {total}")

## ‚úÖ F. Visitantes a una regi√≥n espec√≠fica (ej: Cusco)
print("\nüîç F. Visitantes a Cusco (primeros 3):")
for doc in collection.find({"region": "Cusco"}, {"_id": 0, "id_visitante": 1, "destino": 1, "gasto_total": 1}).limit(3):
    print(doc)

## ‚úÖ G. Visitantes que usaron avi√≥n como transporte
print("\nüîç G. Visitantes que viajaron en avi√≥n:")
for doc in collection.find({"medio_transporte": "Avi√≥n"}, {"_id": 0, "pais_origen": 1, "region": 1}).limit(5):
    print(doc)

‚úÖ Datos insertados en MongoDB correctamente.
üìÅ Base de datos: TurismoPeru_2025 | Colecci√≥n: Visitantes | Registros: 2834

üîç A. Primeros 3 documentos completos:
{'_id': ObjectId('68f24f1bc9383466dad249fa'), 'id_visitante': 'V0001', 'pais_origen': 'Brasil', 'edad': 59, 'genero': 'F', 'destino': 'R√≠o Amazonas', 'region': 'Iquitos', 'fecha_visita': '2025-01-10', 'dias_estadia': 12, 'gasto_total': 3474.65, 'medio_transporte': 'Desconocido'}
{'_id': ObjectId('68f24f1bc9383466dad249fb'), 'id_visitante': 'V0002', 'pais_origen': 'Colombia', 'edad': 17, 'genero': 'M', 'destino': 'Islas Flotantes Uros', 'region': 'Puno', 'fecha_visita': '2025-09-15', 'dias_estadia': 11, 'gasto_total': 890.28, 'medio_transporte': 'Desconocido'}
{'_id': ObjectId('68f24f1bc9383466dad249fc'), 'id_visitante': 'V0003', 'pais_origen': 'Argentina', 'edad': 25, 'genero': 'Otro', 'destino': 'Huaca Pucllana', 'region': 'Lima', 'fecha_visita': '2025-05-01', 'dias_estadia': 3, 'gasto_total': 3565.26, 'medio_transpor