PARTE LAUTA

In [None]:
from neo4j import GraphDatabase
from pymongo import MongoClient
import matplotlib.pyplot as plt

# Conexiones con verificación
try:
    mongo_client = MongoClient("mongodb://admin:admin123@mongo:27017/")
    db = mongo_client["data"]
    db.command("ping")
    print("✅ Conexión a MongoDB establecida correctamente.")
except Exception as e:
    print(f"❌ Error al conectar a MongoDB: {e}")
    exit()

try:
    neo_uri = "bolt://neo4j:7687"
    neo_user = "neo4j"
    neo_pass = "neo4j123"
    driver = GraphDatabase.driver(neo_uri, auth=(neo_user, neo_pass))
    with driver.session() as session:
        session.run("RETURN 1")
    print("✅ Conexión a Neo4j establecida correctamente.")
except Exception as e:
    print(f"❌ Error al conectar a Neo4j: {e}")
    exit()

def run_cypher(query, parameters=None):
    with driver.session() as session:
        result = session.run(query, parameters)
        return result.data()

# b. Amigos de Juan y destinos compartidos
print("\n--- b. Amigos de Juan y destinos compartidos (FORZADO) ---")

# La consulta corregida y mejorada
query_b = """
MATCH (j:Usuario) 
WHERE j.nombre STARTS WITH 'Juan'
MATCH (j)-[:AMIGO_DE]-(f:Usuario)
MATCH (j)-[:VISITO]->(d:Destino)<-[:VISITO]-(f)
RETURN 
    j.nombre AS nombre_de_juan,
    f.nombre AS nombre_del_amigo, 
    d.city AS destino_compartido
"""
# Asumiendo que 'run_cypher' está definida en tu entorno.
result_b = run_cypher(query_b) 

if result_b:
    print("Amigos de Juan y destinos compartidos:")
    for record in result_b:
        print(f"  - {record['nombre_de_juan']} es amigo de {record['nombre_del_amigo']} y visitaron {record['destino_compartido']}")
else:
    print("Amigos de Juan y destinos compartidos: Ninguno (Asegúrate de haber re-ejecutado data_loading_neo4j.ipynb)")
# c. Sugerencias para usuario 1
# Importa 'run_cypher' si aún no lo has hecho
import random 

# Define el ID del usuario objetivo
# Define el ID del usuario objetivo 
USUARIO_OBJETIVO_ID = 1 

# Consulta para obtener el nombre real (u.nombre)
nombre_result = run_cypher(f"""
MATCH (u:Usuario {{id: {USUARIO_OBJETIVO_ID}}})
RETURN u.nombre AS Nombre
""")

USUARIO_OBJETIVO_NOMBRE = nombre_result[0]['Nombre'] if nombre_result else f"ID {USUARIO_OBJETIVO_ID} (Usuario no encontrado)"

# --- Consulta Cypher principal (Sugerencia de destinos) ---
query_c = f"""
// Encuentra todos los destinos visitados por el usuario objetivo y sus amigos
MATCH (u:Usuario {{id: {USUARIO_OBJETIVO_ID}}})-[:AMIGO_DE]-(f:Usuario)-[:VISITO]->(d_amigo:Destino)
WITH collect(DISTINCT d_amigo) AS DestinosAmigos

// Encuentra todos los destinos visitados por el usuario objetivo (u)
MATCH (u_propio:Usuario {{id: {USUARIO_OBJETIVO_ID}}})-[:VISITO]->(d_propio:Destino)
WITH DestinosAmigos, collect(DISTINCT d_propio) AS DestinosPropios

// Crea una lista combinada de destinos a excluir
WITH DestinosAmigos + DestinosPropios AS DestinosAExcluir

// Encuentra TODOS los destinos y filtra los que no estén en la lista de exclusión
MATCH (d_sugerido:Destino)
WHERE NOT d_sugerido IN DestinosAExcluir

// Devuelve los destinos sugeridos usando la única propiedad de ciudad que existe: d_sugerido.city
RETURN d_sugerido.city AS DestinoSugerido // <- Quitamos d.tipo porque no existe
"""

result_c = run_cypher(query_c) 

# --- Imprimir el resultado final ---
print("\n--- c. Sugerir destinos a un Usuario (que no ha visitado él ni sus amigos) ---")
if result_c:
    print(f"Destinos sugeridos para el usuario con ID {USUARIO_OBJETIVO_ID} ({USUARIO_OBJETIVO_NOMBRE}):")
    for record in result_c:
        print(f"  - {record['DestinoSugerido']}")
else:
    print(f"No hay destinos para sugerir a {USUARIO_OBJETIVO_NOMBRE} porque ya visitó o sus amigos visitaron todos los destinos en la base de datos.")
# Definimos el ID del usuario objetivo
USER_ID_OBJETIVO = 4 

# --- d. Recomendaciones basadas en amigos (Extrayendo ciudades) ---
query_d = f"""
MATCH (u:Usuario {{id: {USER_ID_OBJETIVO}}})
// Encuentra destinos visitados por amigos (f)
MATCH (u)-[:AMIGO_DE]-(f:Usuario)-[:VISITO]->(d:Destino)
// Filtra destinos que el usuario (u) *no* haya visitado
WHERE NOT (u)-[:VISITO]->(d)
// Devuelve las ciudades recomendadas
RETURN DISTINCT d.city as ciudad_recomendada
"""

result_d = run_cypher(query_d) 
ciudades_recomendadas = [r['ciudad_recomendada'] for r in result_d]

print("\n--- d. Recomendaciones basadas en amigos ---")
print(f"Recomendaciones de destinos para el usuario {USER_ID_OBJETIVO}:", 
      ciudades_recomendadas if ciudades_recomendadas else "Ninguna recomendación.")


# --- e. Hoteles en destinos recomendados ---
print("\n--- e. Listado Final de Hoteles (Solo nombres limpios y corregidos) ---")

if not ciudades_recomendadas:
    print(f"Hoteles: No hay destinos recomendados para el usuario {USER_ID_OBJETIVO}.")
else:
    # Este 'if' debe estar alineado con el 'else' del bloque exterior
    if 'db' in globals():
        # 1. Obtener los datos sin modificar (Indentación correcta: un nivel)
        hoteles_data = list(db.hoteles.find(
            {"city": {"$in": ciudades_recomendadas}},
            {"_id": 0, "name": 1, "city": 1}
        ))
        
        # 2. Inicia el bloque 'if hoteles_data:' (Indentación correcta: un nivel)
        if hoteles_data:
            # 3. LIMPIEZA Y AGRUPACIÓN (Indentación correcta: dos niveles)
            nombres_hoteles_unicos = set()
            
            for hotel in hoteles_data:
                parts = hotel['name'].split()
                
                # Lógica para eliminar el número de conteo final
                if parts and parts[-1].isdigit():
                    nombre_limpio = ' '.join(parts[:-1])
                else:
                    nombre_limpio = hotel['name']
                    
                nombres_hoteles_unicos.add(nombre_limpio)
            
            # 4. Imprimir el resultado final limpio (Indentación correcta: un nivel)
            print(f"Hoteles recomendados en: {', '.join(ciudades_recomendadas)}")
            print("-----------------------------------------------------------------")
            
            for nombre_hotel in sorted(list(nombres_hoteles_unicos)):
                print(f"  - {nombre_hotel}")
        else:
            # Este 'else' debe estar alineado con el 'if hoteles_data:'
            print("No se encontraron hoteles en MongoDB para estas ciudades.")
    else:
        # Este 'else' debe estar alineado con el 'if db in globals():'
        print("❌ ERROR: La conexión a MongoDB ('db' object) no está activa.")
# m
import matplotlib.pyplot as plt
import pandas as pd
from collections import Counter
import random # Necesario si Actividades son aleatorias

# Configuración básica del gráfico
plt.rcParams.update({'figure.figsize': (10, 6)})

# ----------------------------------------------------------------------
# i. Destino más visitado (Neo4j)
# ----------------------------------------------------------------------
print("\n--- m.i. Destino más Visitado (Gráfico Vertical) ---")

query_destino_visitado = """
MATCH (u:Usuario)-[:VISITO]->(d:Destino)
RETURN d.city AS Destino, count(u) AS TotalVisitas
ORDER BY TotalVisitas DESC
LIMIT 10
"""

result_destino = run_cypher(query_destino_visitado)

if result_destino:
    df_destino = pd.DataFrame(result_destino)
    
    # 1. Identificar la cantidad máxima de visitas
    max_visitas = df_destino['TotalVisitas'].max()
    
    # 2. Filtrar el DataFrame para encontrar TODOS los destinos con esa cantidad máxima
    top_destinos = df_destino[df_destino['TotalVisitas'] == max_visitas]['Destino'].tolist()
    
    # 3. Crear el string de la estadística
    if len(top_destinos) > 1:
        estadistica_top = f"Destinos más visitados (Empate con {max_visitas} visitas): {', '.join(top_destinos)}"
    else:
        estadistica_top = f"Destino más visitado: {top_destinos[0]} con {max_visitas} visitas."

    # --- Creación del Gráfico ---
    plt.figure(figsize=(10, 6))
    
    plt.bar(df_destino['Destino'], df_destino['TotalVisitas'], color='skyblue')
    
    plt.ylabel('Total de Visitas')
    plt.xlabel('Destino')
    plt.title('Top 10 Destinos Más Visitados (Neo4j)')
    
    # Rotar las etiquetas del eje X para evitar superposición
    plt.xticks(rotation=45, ha='right') 
    
    plt.grid(axis='y', linestyle='--', alpha=0.6)
    plt.tight_layout()
    plt.show() # 
    
    # 4. Imprimir la estadística corregida
    print(estadistica_top)
else:
    print("No hay datos de visitas para generar la estadística.")
# ----------------------------------------------------------------------
# ii. Hotel más barato (MongoDB)
# ----------------------------------------------------------------------
print("\n--- m.ii. Listado de Hoteles por Precio (Todos los Hoteles) ---")

PRECIO_KEY = "price_per_night" 

if 'db' in globals():
    hoteles_todos = list(db.hoteles.find(
        {}, 
        {"_id": 0, "name": 1, "city": 1, PRECIO_KEY: 1}
    ).sort(PRECIO_KEY, 1)) # Los datos ya están ordenados de menor a mayor

    if hoteles_todos:
        # Limpieza de nombres y creación de etiquetas
        for hotel in hoteles_todos:
            parts = hotel['name'].split()
            if parts and parts[-1].isdigit():
                hotel['name_clean'] = ' '.join(parts[:-1])
            else:
                hotel['name_clean'] = hotel['name']
            
            hotel['label'] = f"{hotel['name_clean']} ({hotel['city']})"
        
        df_hotel = pd.DataFrame(hoteles_todos)
        hotel_mas_barato = hoteles_todos[0]
        
        # --- Gráfico de Barras Horizontal ---
        MAX_SHOWN_BARS = 30 
        df_to_plot = df_hotel.head(MAX_SHOWN_BARS)

        plt.figure(figsize=(12, 10))
        
        # 💥 SOLUCIÓN: Invertir el DataFrame al graficar con [::-1] 
        # Esto asegura que el hotel más barato (primera fila de df_to_plot)
        # aparezca en la parte inferior del gráfico.
        df_invertido = df_to_plot[::-1]
        
        plt.barh(df_invertido['label'], df_invertido[PRECIO_KEY], color='lightcoral')
        
        plt.ylabel('Hotel (Ciudad)')
        plt.xlabel('Precio por Noche ($)')
        plt.title(f'Precios de Hoteles Ordenados (De Menor a Mayor Precio, Mostrando Top {len(df_to_plot)})')
        plt.grid(axis='x', linestyle='--', alpha=0.6)
        plt.tight_layout()
        plt.show() # 
        
        print("\n--- Estadísticas ---")
        print(f"Número total de hoteles procesados: {len(hoteles_todos)}")
        print(f"Hotel más barato: {hotel_mas_barato['name_clean']} en {hotel_mas_barato['city']} por ${hotel_mas_barato[PRECIO_KEY]:.2f}.")
        
    else:
        print("No se encontraron hoteles para generar la estadística.")
else:
    print("❌ No se pudo conectar a MongoDB ('db' no está disponible).")
# ----------------------------------------------------------------------
# iii. Actividad más popular (MongoDB - Colección 'reservas')
# ----------------------------------------------------------------------
print("\n--- m.iii. Actividad más Popular ---")

if 'db' in globals():
    # Pipeline de Agregación Corregido:
    pipeline = [
        # 1. Desestructura el array 'actividades_reservadas', creando un documento por cada actividad
        {"$unwind": "$actividades_reservadas"}, 
        # 2. Agrupa por el nombre de la actividad (que ahora es el documento de entrada) y cuenta
        {"$group": {"_id": "$actividades_reservadas", "TotalReservas": {"$sum": 1}}},
        # 3. Ordena para obtener la más popular
        {"$sort": {"TotalReservas": -1}},
        {"$limit": 5}
    ]
    
    top_actividades = list(db.reservas.aggregate(pipeline))

    if top_actividades:
        df_actividad = pd.DataFrame(top_actividades)
        df_actividad.rename(columns={'_id': 'Actividad'}, inplace=True)
        
        # Calcular el total de reservas para el resto
        total_otras = db.reservas.count_documents({}) - df_actividad['TotalReservas'].sum()
        
        # Si hay otras actividades, las agregamos para el gráfico circular
        if total_otras > 0:
            df_otras = pd.DataFrame([{'Actividad': 'Otras', 'TotalReservas': total_otras}])
            df_actividad = pd.concat([df_actividad, df_otras], ignore_index=True)
        
        # Crea el gráfico circular/de anillo
        plt.figure(figsize=(8, 8))
        plt.pie(df_actividad['TotalReservas'], 
                labels=df_actividad['Actividad'], 
                autopct='%1.1f%%', 
                startangle=90, 
                wedgeprops=dict(width=0.4), # Para hacerlo un gráfico de anillo
                colors=plt.cm.Paired.colors)
        
        plt.title('Distribución de Reservas de Actividades (Top 5 + Otros)')
        
        plt.tight_layout()
        plt.show() #         
        print(f"Actividad más popular: {df_actividad.iloc[0]['Actividad']} con {df_actividad.iloc[0]['TotalReservas']} reservas.")
    else:
        print("No se encontraron reservas para generar la estadística.")
else:
    print("❌ No se pudo conectar a MongoDB ('db' no está disponible).")
# Cerrar conexiones
try:
    driver.close()
    mongo_client.close()
except Exception as e:
    print(f"Error al cerrar conexiones: {e}")