In [None]:
# Configuraci√≥n e importaci√≥n
import pandas as pd
import requests
import json
import time
import sqlite3
from typing import List, Dict, Any, Tuple
import logging
from datetime import datetime, timedelta
import os
import importlib

# Cargar la Api de deepseek
try:
    import config
    importlib.reload(config)  # Forzar recarga
    DEEPSEEK_API_KEY = config.DEEPSEEK_API_KEY
    DB_PATH = config.DB_PATH
    print("‚úÖ Configuraci√≥n cargada desde config.py (recargado)")
except ImportError as e:
    print(f"‚ùå Error: {e}")
    # Poner las credenciales directamente
    DEEPSEEK_API_KEY = "tu_api_key_real_aqui"
    DB_PATH = "tfm_database.db"
    print("üîÑ Usando configuraci√≥n directa")

# Configuraci√≥n DeepSeek API
DEEPSEEK_API_URL = "https://api.deepseek.com/v1/chat/completions"

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

print(f"\n‚úÖ Configuraci√≥n lista")
print(f"üìÅ DB Path: {DB_PATH}")
print(f"üîë API Key: {'‚úÖ CONFIGURADA' if DEEPSEEK_API_KEY and DEEPSEEK_API_KEY != 'tu_api_key_real_aqui' else '‚ùå PENDIENTE'}")

‚úÖ Configuraci√≥n cargada desde config.py (recargado)

‚úÖ Configuraci√≥n lista
üìÅ DB Path: tfm_database.db
üîë API Key: ‚úÖ CONFIGURADA


In [None]:
# Clase GeneradorOportunidades
class GeneradorOportunidades:
    def __init__(self, api_key: str, db_path: str):
        self.api_key = api_key
        self.db_path = db_path
        self.headers = {
            "Authorization": f"Bearer {api_key}",
            "Content-Type": "application/json"
        }
        self.api_url = DEEPSEEK_API_URL
        
        # Factores de queja que nos interesan
        self.factores_interes = [
            "precio_elevado",
            "calidad_comida_mala", 
            "presentacion_mala",
            "variedad_escasa"
        ]
    
    def get_connection(self):
        return sqlite3.connect(self.db_path)
    
    def obtener_fecha_limite(self):
        """Obtiene la fecha l√≠mite (hace 1 a√±o)"""
        return (datetime.now() - timedelta(days=365)).strftime('%Y-%m-%d')
    
    def obtener_restaurantes_con_quejas(self):
        """Obtiene restaurantes que tienen quejas de inter√©s en el √∫ltimo a√±o"""
        fecha_limite = self.obtener_fecha_limite()
        
        query = """
        SELECT DISTINCT r.restaurante_id, res.tripadvisor_id, res.nombre
        FROM Reviews r
        JOIN Restaurantes res ON r.restaurante_id = res.id
        WHERE r.factores_queja IS NOT NULL 
        AND r.fecha_publicacion >= ?
        """
        
        conn = self.get_connection()
        try:
            restaurantes = pd.read_sql(query, conn, params=(fecha_limite,))
            print(f"üìä Restaurantes con reviews en √∫ltimo a√±o: {len(restaurantes)}")
            return restaurantes
        except Exception as e:
            print(f"‚ùå Error obteniendo restaurantes: {e}")
            return pd.DataFrame()
        finally:
            conn.close()
    
    def obtener_reviews_restaurante(self, tripadvisor_id: int):
        """Obtiene las reviews de un restaurante con quejas de inter√©s en el √∫ltimo a√±o"""
        fecha_limite = self.obtener_fecha_limite()
        
        query = """
        SELECT r.review_id, r.titulo_es, r.contenido_es, r.factores_queja, r.rating, r.fecha_publicacion
        FROM Reviews r
        JOIN Restaurantes res ON r.restaurante_id = res.id
        WHERE res.tripadvisor_id = ? 
        AND r.fecha_publicacion >= ?
        AND r.factores_queja IS NOT NULL
        ORDER BY r.fecha_publicacion DESC
        """
        
        conn = self.get_connection()
        try:
            reviews = pd.read_sql(query, conn, params=(tripadvisor_id, fecha_limite))
            
            # Filtrar solo reviews con factores de inter√©s
            reviews_con_interes = []
            for _, review in reviews.iterrows():
                try:
                    factores = json.loads(review['factores_queja'])
                    # Verificar si tiene al menos un factor de inter√©s
                    if any(factores.get(factor, 0) == 1 for factor in self.factores_interes):
                        reviews_con_interes.append(review)
                except:
                    continue
            
            return pd.DataFrame(reviews_con_interes)
            
        except Exception as e:
            print(f"‚ùå Error obteniendo reviews: {e}")
            return pd.DataFrame()
        finally:
            conn.close()
    
    def verificar_oportunidad_existente(self, tripadvisor_id: int, reviews_ids: List[str]) -> bool:
        """Verifica si ya existe una oportunidad para este conjunto de reviews"""
        conn = self.get_connection()
        try:
            reviews_json = json.dumps(sorted(reviews_ids))
            query = "SELECT COUNT(*) FROM Oportunidades WHERE tripadvisor_id = ? AND reviews_utilizadas = ?"
            count = conn.execute(query, (tripadvisor_id, reviews_json)).fetchone()[0]
            return count > 0
        finally:
            conn.close()
    
    def llamar_api_deepseek(self, prompt: str, max_tokens: int = 3000) -> str:
        """Llama a la API de DeepSeek"""
        payload = {
            "model": "deepseek-chat",
            "messages": [{"role": "user", "content": prompt}],
            "temperature": 0.1,
            "max_tokens": max_tokens
        }
        
        try:
            response = requests.post(self.api_url, headers=self.headers, json=payload, timeout=60)
            response.raise_for_status()
            result = response.json()
            return result['choices'][0]['message']['content'].strip()
        except Exception as e:
            logger.error(f"‚ùå Error API: {e}")
            raise
    
    def generar_resumen_problematicas(self, reviews_df: pd.DataFrame, nombre_restaurante: str) -> str:
        """Genera un resumen de las problem√°ticas detectadas"""
        
        # Preparar texto con todas las reviews
        reviews_texto = ""
        for _, review in reviews_df.iterrows():
            reviews_texto += f"REVIEW {review['review_id']} (Rating: {review['rating']}/5):\n"
            reviews_texto += f"T√≠tulo: {review['titulo_es']}\n"
            reviews_texto += f"Contenido: {review['contenido_es']}\n"
            
            # A√±adir factores de queja espec√≠ficos
            try:
                factores = json.loads(review['factores_queja'])
                factores_activos = [f for f in self.factores_interes if factores.get(f, 0) == 1]
                if factores_activos:
                    reviews_texto += f"Factores problema: {', '.join(factores_activos)}\n"
            except:
                pass
            reviews_texto += "\n" + "-"*50 + "\n"
        
        prompt = f"""
        Eres un analista comercial especializado en el sector HORECA. 
        Analiza las siguientes cr√≠ticas del restaurante "{nombre_restaurante}" y genera un resumen objetivo de las problem√°ticas principales.
        
        CR√çTICAS DEL RESTAURANTE:
        {reviews_texto}
        
        INSTRUCCIONES:
        1. Resume las problem√°ticas principales SIN inventar informaci√≥n
        2. S√© espec√≠fico y basado √∫nicamente en las cr√≠ticas
        3. Agrupa problemas similares
        4. Mant√©n un tono profesional y objetivo
        5. M√°ximo 300 palabras
        
        RESUMEN DE PROBLEM√ÅTICAS:
        """
        
        return self.llamar_api_deepseek(prompt)
    
    def generar_oportunidades_comerciales(self, problematicas: str, nombre_restaurante: str) -> str:
        """Genera oportunidades comerciales basadas en las problem√°ticas"""
        
        prompt = f"""
        Eres un comercial experto en el sector HORECA. 
        Bas√°ndote en las siguientes problem√°ticas del restaurante "{nombre_restaurante}", genera oportunidades comerciales concretas.
        
        PROBLEM√ÅTICAS DETECTADAS:
        {problematicas}
        
        INSTRUCCIONES ESPEC√çFICAS:
        Para CADA problem√°tica identificada, prop√≥n 2 oportunidades comerciales:
        - Oportunidad 1: Soluci√≥n directa al problema mencionado
        - Oportunidad 2: Producto/servicio complementario que prevenga el problema
        
        EJEMPLO:
        Problema: "El pollo ten√≠a mal sabor"
        Oportunidades:
        1. Ofertar gama premium de carnes de ave con certificado de calidad
        2. Proponer formaci√≥n en t√©cnicas de cocci√≥n y conservaci√≥n de carnes
        
        FORMATO DE RESPUESTA:
        Para cada problem√°tica, usar:
        **Problem√°tica X**: [descripci√≥n breve]
        - Oportunidad 1: [soluci√≥n concreta]
        - Oportunidad 2: [soluci√≥n complementaria]
        
        S√© espec√≠fico con productos/servicios que podr√≠an solucionar cada problema.
        """
        
        return self.llamar_api_deepseek(prompt, max_tokens=4000)
    
    def procesar_restaurante(self, tripadvisor_id: int, nombre_restaurante: str) -> bool:
        """Procesa un restaurante y genera oportunidades si aplica"""
        print(f"\nüîç Analizando restaurante: {nombre_restaurante} (ID: {tripadvisor_id})")
        
        # 1. Obtener reviews relevantes
        reviews_df = self.obtener_reviews_restaurante(tripadvisor_id)
        if reviews_df.empty:
            print("   ‚è≠Ô∏è  No hay reviews con factores de inter√©s")
            return False
        
        print(f"   üìä Reviews con quejas de inter√©s: {len(reviews_df)}")
        
        # 2. Verificar si ya existe oportunidad para estas reviews
        reviews_ids = reviews_df['review_id'].tolist()
        if self.verificar_oportunidad_existente(tripadvisor_id, reviews_ids):
            print("   ‚è≠Ô∏è  Ya existe oportunidad para estas reviews")
            return False
        
        # 3. Generar resumen de problem√°ticas
        print("   ü§ñ Generando resumen de problem√°ticas...")
        problematicas = self.generar_resumen_problematicas(reviews_df, nombre_restaurante)
        
        # 4. Generar oportunidades comerciales
        print("   üí° Generando oportunidades comerciales...")
        oportunidades = self.generar_oportunidades_comerciales(problematicas, nombre_restaurante)
        
        # 5. Guardar en base de datos
        conn = self.get_connection()
        try:
            insert_query = """
            INSERT INTO Oportunidades 
            (tripadvisor_id, reviews_utilizadas, problematicas_detectadas, oportunidades)
            VALUES (?, ?, ?, ?)
            """
            reviews_json = json.dumps(sorted(reviews_ids))
            conn.execute(insert_query, (tripadvisor_id, reviews_json, problematicas, oportunidades))
            conn.commit()
            print("   ‚úÖ Oportunidad guardada en la tabla Oportunidades de SQLite")
            return True
            
        except Exception as e:
            print(f"   ‚ùå Error guardando oportunidad: {e}")
            conn.rollback()
            return False
        finally:
            conn.close()
    
    def procesar_todos_restaurantes(self, delay: int = 5):
        """Procesa todos los restaurantes con quejas"""
        print("üöÄ INICIANDO GENERACI√ìN DE OPORTUNIDADES")
        print("=" * 60)
        
        # 1. Obtener restaurantes a procesar
        restaurantes_df = self.obtener_restaurantes_con_quejas()
        if restaurantes_df.empty:
            print("‚ùå No hay restaurantes para procesar")
            return
        
        print(f"üìä Restaurantes a procesar: {len(restaurantes_df)}")
        
        # 2. Procesar cada restaurante
        procesados = 0
        creados = 0
        errores = 0
        
        for _, restaurante in restaurantes_df.iterrows():
            try:
                procesados += 1
                print(f"\n[{procesados}/{len(restaurantes_df)}] ", end="")
                
                exito = self.procesar_restaurante(
                    restaurante['tripadvisor_id'], 
                    restaurante['nombre']
                )
                
                if exito:
                    creados += 1
                else:
                    print("   ‚è≠Ô∏è  Saltado (sin reviews relevantes o ya existe)")
                
                # Delay para evitar rate limiting
                if procesados < len(restaurantes_df):
                    print(f"   ‚è≥ Esperando {delay} segundos...")
                    time.sleep(delay)
                    
            except Exception as e:
                errores += 1
                print(f"   ‚ùå Error procesando restaurante: {e}")
                continue
        
        # 3. Mostrar resumen
        print(f"\nüéâ PROCESAMIENTO COMPLETADO")
        print("=" * 60)
        print(f"üìä RESUMEN:")
        print(f"   Restaurantes procesados: {procesados}")
        print(f"   Oportunidades creadas: {creados}")
        print(f"   Errores: {errores}")

# Inicializar generador
generador = GeneradorOportunidades(DEEPSEEK_API_KEY, DB_PATH)
print("‚úÖ Generador de oportunidades inicializado")

‚úÖ Generador de oportunidades inicializado


In [None]:
# Verificaci√≥n inicial
print("üîç VERIFICACI√ìN INICIAL")

# 1. Test de conexi√≥n API
print("\nüß™ TESTEANDO CONEXI√ìN API...")
try:
    test_prompt = "Responde con 'OK' si la conexi√≥n funciona."
    respuesta = generador.llamar_api_deepseek(test_prompt, max_tokens=10)
    print(f"‚úÖ API: {respuesta}")
except Exception as e:
    print(f"‚ùå Error API: {e}")

# 2. Verificar datos disponibles
print("\nüìä DATOS DISPONIBLES:")
with generador.get_connection() as conn:
    # Total restaurantes
    total_rest = conn.execute("SELECT COUNT(*) FROM Restaurantes").fetchone()[0]
    print(f"   Restaurantes en BD: {total_rest}")
    
    # Reviews con factores de inter√©s
    fecha_limite = generador.obtener_fecha_limite()
    query = """
    SELECT COUNT(*) 
    FROM Reviews r
    WHERE r.factores_queja IS NOT NULL 
    AND r.fecha_publicacion >= ?
    """
    reviews_relevantes = conn.execute(query, (fecha_limite,)).fetchone()[0]
    print(f"   Reviews relevantes (√∫ltimo a√±o): {reviews_relevantes}")
    
    # Oportunidades existentes
    try:
        oportunidades_existentes = conn.execute("SELECT COUNT(*) FROM Oportunidades").fetchone()[0]
        print(f"   Oportunidades existentes: {oportunidades_existentes}")
    except:
        print("   Oportunidades existentes: 0 (tabla no existe a√∫n)")

# 3. Mostrar factores de inter√©s
print(f"\nüéØ FACTORES DE INTER√âS:")
for factor in generador.factores_interes:
    print(f"   - {factor}")

üîç VERIFICACI√ìN INICIAL

üß™ TESTEANDO CONEXI√ìN API...
‚úÖ API: OK

üìä DATOS DISPONIBLES:
   Restaurantes en BD: 40
   Reviews relevantes (√∫ltimo a√±o): 36
   Oportunidades existentes: 10

üéØ FACTORES DE INTER√âS:
   - precio_elevado
   - calidad_comida_mala
   - presentacion_mala
   - variedad_escasa


In [None]:
# Procesamiento completo
print("üöÄ INICIANDO GENERACI√ìN DE OPORTUNIDADES COMPLETA")

# Procesar todos los restaurantes
generador.procesar_todos_restaurantes(delay=5)

üöÄ INICIANDO GENERACI√ìN DE OPORTUNIDADES COMPLETA
üöÄ INICIANDO GENERACI√ìN DE OPORTUNIDADES
üìä Restaurantes con reviews en √∫ltimo a√±o: 13
üìä Restaurantes a procesar: 13

[1/13] 
üîç Analizando restaurante: Octopus Restaurant - Pompeu Fabra (ID: 23990713)
   ‚è≠Ô∏è  No hay reviews con factores de inter√©s
   ‚è≠Ô∏è  Saltado (sin reviews relevantes o ya existe)
   ‚è≥ Esperando 5 segundos...

[2/13] 
üîç Analizando restaurante: Restaurant A4MANS (ID: 33219282)
   üìä Reviews con quejas de inter√©s: 1
   ‚è≠Ô∏è  Ya existe oportunidad para estas reviews
   ‚è≠Ô∏è  Saltado (sin reviews relevantes o ya existe)
   ‚è≥ Esperando 5 segundos...

[3/13] 
üîç Analizando restaurante: CROAK'S Girona (ID: 12506471)
   üìä Reviews con quejas de inter√©s: 3
   ‚è≠Ô∏è  Ya existe oportunidad para estas reviews
   ‚è≠Ô∏è  Saltado (sin reviews relevantes o ya existe)
   ‚è≥ Esperando 5 segundos...

[4/13] 
üîç Analizando restaurante: Originem (ID: 23687398)
   üìä Reviews con quejas de in

In [5]:
# Verificaci√≥n de resultados en la tabla Oportunidades
print("üîç VERIFICANDO RESULTADOS EN TABLA OPORTUNIDADES")

with generador.get_connection() as conn:
    # Estad√≠sticas finales
    total_oportunidades = conn.execute("SELECT COUNT(*) FROM Oportunidades").fetchone()[0]
    print(f"üìä Total oportunidades en tabla: {total_oportunidades}")
    
    if total_oportunidades > 0:
        # Mostrar estructura de la tabla
        print(f"\nüèóÔ∏è  ESTRUCTURA DE LA TABLA:")
        columnas = conn.execute("PRAGMA table_info(Oportunidades)").fetchall()
        for col in columnas:
            print(f"   - {col[1]} ({col[2]})")
        
        # Mostrar oportunidades creadas
        print(f"\nüìù OPORTUNIDADES CREADAS:")
        oportunidades = conn.execute("""
        SELECT o.id, r.nombre, o.tripadvisor_id, o.fecha_insercion,
               json_array_length(o.reviews_utilizadas) as num_reviews
        FROM Oportunidades o
        JOIN Restaurantes r ON o.tripadvisor_id = r.tripadvisor_id
        ORDER BY o.fecha_insercion DESC
        LIMIT 10
        """).fetchall()
        
        for op in oportunidades:
            print(f"\n--- ID: {op[0]} ---")
            print(f"   Restaurante: {op[1]}")
            print(f"   Tripadvisor ID: {op[2]}")
            print(f"   Fecha: {op[3]}")
            print(f"   Reviews utilizadas: {op[4]}")
        
        # Mostrar ejemplo completo de una oportunidad
        print(f"\nüìÑ EJEMPLO COMPLETO (primera oportunidad):")
        ejemplo = conn.execute("""
        SELECT r.nombre, o.problematicas_detectadas, o.oportunidades
        FROM Oportunidades o
        JOIN Restaurantes r ON o.tripadvisor_id = r.tripadvisor_id
        ORDER BY o.id
        LIMIT 1
        """).fetchone()
        
        if ejemplo:
            nombre, problematicas, oportunidades = ejemplo
            print(f"\nüè™ RESTAURANTE: {nombre}")
            print(f"\nüî¥ PROBLEM√ÅTICAS (primeras 300 caracteres):")
            print(problematicas[:300] + "..." if len(problematicas) > 300 else problematicas)
            print(f"\nüü¢ OPORTUNIDADES (primeras 300 caracteres):")
            print(oportunidades[:300] + "..." if len(oportunidades) > 300 else oportunidades)
    else:
        print("‚ÑπÔ∏è  No hay oportunidades en la tabla")

üîç VERIFICANDO RESULTADOS EN TABLA OPORTUNIDADES
üìä Total oportunidades en tabla: 10

üèóÔ∏è  ESTRUCTURA DE LA TABLA:
   - id (INTEGER)
   - tripadvisor_id (INTEGER)
   - reviews_utilizadas (TEXT)
   - problematicas_detectadas (TEXT)
   - oportunidades (TEXT)
   - fecha_insercion (TIMESTAMP)

üìù OPORTUNIDADES CREADAS:

--- ID: 10 ---
   Restaurante: Formaticum
   Tripadvisor ID: 24077637
   Fecha: 2025-10-18 18:53:23
   Reviews utilizadas: 4

--- ID: 9 ---
   Restaurante: La Pedra
   Tripadvisor ID: 2715456
   Fecha: 2025-10-18 18:52:41
   Reviews utilizadas: 1

--- ID: 8 ---
   Restaurante: Da Vinci Girona
   Tripadvisor ID: 23177354
   Fecha: 2025-10-18 18:52:08
   Reviews utilizadas: 1

--- ID: 7 ---
   Restaurante: Jardins Gala
   Tripadvisor ID: 27533952
   Fecha: 2025-10-18 18:51:40
   Reviews utilizadas: 3

--- ID: 6 ---
   Restaurante: Restaurant Gran Muralla I
   Tripadvisor ID: 1154276
   Fecha: 2025-10-18 18:51:04
   Reviews utilizadas: 1

--- ID: 5 ---
   Restaurante