In [1]:
pip install faiss-cpu

Note: you may need to restart the kernel to use updated packages.




In [3]:
import pandas as pd
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
import torch
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pickle
import unicodedata
import requests
import json

In [4]:
def cargar_datos():
    """Cargar y preparar los datos de los tres archivos CSV"""
    print("Cargando datos...")
    planes = pd.read_csv('planes_trabajo_procesados.csv')
    biografias = pd.read_csv('biografias_procesadas.csv')
    entrevistas = pd.read_csv('entrevistas_procesadas.csv')

    return planes, biografias, entrevistas

In [5]:
def es_texto_valido(texto):
    """Verifica si el texto es válido para búsqueda"""
    if not isinstance(texto, str):
        return False

    # Eliminar textos muy cortos
    if len(texto.split()) < 5:
        return False

    # Eliminar textos que son solo códigos o referencias
    if re.match(r'^[A-Z0-9\-\.]+$', texto.strip()):
        return False

    return True

In [6]:
def preparar_texto_busqueda(texto):
    """Prepara el texto para búsqueda"""
    if not isinstance(texto, str):
        return ""
    palabras = texto.lower().split()
    if len(palabras) > 3:
        return texto
    return ""

In [7]:
def encontrar_contexto(df, idx, window=2):
    """Encuentra oraciones de contexto alrededor de un índice"""
    start_idx = max(0, idx - window)
    end_idx = min(len(df), idx + window + 1)

    contexto = []
    for i in range(start_idx, end_idx):
        if i == idx:
            contexto.append(f"[RELEVANTE] {df.iloc[i]['oracion_original']}")
        else:
            contexto.append(df.iloc[i]['oracion_original'])

    return " ".join(contexto)

In [8]:
def crear_sistema_busqueda():
    """Crea el sistema de búsqueda mejorado"""
    planes, biografias, entrevistas = cargar_datos()

    # Preparar datos
    textos_validos = []
    metadata = []

    # Procesar planes de trabajo (peso más alto)
    for idx, row in planes.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'plan',
                'peso': 1.2,  # Mayor peso para planes
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(planes, idx),
                'id_oracion': row['id_oracion']
            })

    # Procesar entrevistas
    for idx, row in entrevistas.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'entrevista',
                'peso': 1.1,  # Peso medio para entrevistas
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'numero_entrevista': row['numero_entrevista'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(entrevistas, idx),
                'descripcion': row['descripcion_original'],
                'tema': row['tema_original'],
                'id_oracion': row['id_oracion']
            })

    # Procesar biografías (peso más bajo)
    for idx, row in biografias.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'biografia',
                'peso': 1.0,  # Peso base para biografías
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(biografias, idx),
                'id_oracion': row['id_oracion']
            })

    print(f"Total de textos válidos procesados: {len(textos_validos)}")

    # Crear vectorizador TF-IDF para pre-filtrado
    print("Creando vectorizador TF-IDF...")
    vectorizer = TfidfVectorizer(min_df=2, ngram_range=(1, 2))
    tfidf_matrix = vectorizer.fit_transform(textos_validos)

    # Crear modelo de embeddings
    print("Generando embeddings...")
    model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
    embeddings = model.encode(textos_validos, batch_size=32, show_progress_bar=True)

    # Crear índice FAISS
    print("Creando índice FAISS...")
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings.astype('float32'))

    return {
        'index': index,
        'metadata': metadata,
        'model': model,
        'vectorizer': vectorizer,
        'tfidf_matrix': tfidf_matrix,
        'textos_validos': textos_validos
    }

In [9]:
def buscar(query, sistema, k=5, umbral_similitud=0.3):
    """Realiza una búsqueda mejorada"""
    # Pre-filtrado con TF-IDF
    query_vec = sistema['vectorizer'].transform([query])
    similitudes = cosine_similarity(query_vec, sistema['tfidf_matrix']).flatten()

    # Obtener índices de documentos relevantes
    indices_relevantes = np.where(similitudes > umbral_similitud)[0]

    if len(indices_relevantes) == 0:
        return []

    # Generar embedding para la consulta
    query_embedding = sistema['model'].encode([query])

    # Buscar en FAISS
    index_subset = faiss.IndexFlatL2(sistema['index'].d)
    index_subset.add(sistema['index'].get_xb()[indices_relevantes])

    D, I = index_subset.search(query_embedding.astype('float32'), min(k, len(indices_relevantes)))

    # Mapear resultados y aplicar pesos
    resultados = []
    for i, (dist, idx) in enumerate(zip(D[0], I[0])):
        idx_original = indices_relevantes[idx]
        meta = sistema['metadata'][idx_original]

        dist_ajustada = dist / meta['peso']

        resultado = {
            'ranking': i + 1,
            'distancia': dist_ajustada,
            'texto_original': meta['texto_original'],
            'texto_contexto': meta['texto_contexto'],
            'tipo': meta['tipo'],
            'lista': meta['lista'],
            'partido': meta['partido'],
            'presidente': meta['presidente'],
            'id_oracion': meta['id_oracion']
        }

        if meta['tipo'] == 'entrevista':
            resultado.update({
                'numero_entrevista': meta['numero_entrevista'],
                'descripcion': meta['descripcion'],
                'tema': meta['tema']
            })

        resultados.append(resultado)

    return sorted(resultados, key=lambda x: x['distancia'])

In [None]:
# Crear el sistema
print("Creando sistema de búsqueda...")
sistema = crear_sistema_busqueda()

In [None]:
 # Guardar el sistema
print("Guardando sistema en sistema_busqueda.pkl...")
sistema_para_guardar = {
    'index': faiss.serialize_index(sistema['index']),
    'metadata': sistema['metadata'],
    'vectorizer': sistema['vectorizer'],
    'tfidf_matrix': sistema['tfidf_matrix'],
    'textos_validos': sistema['textos_validos']
}

Guardando sistema en sistema_busqueda.pkl...


In [None]:
with open('sistema_busqueda.pkl', 'wb') as f:
        pickle.dump(sistema_para_guardar, f)

print("Sistema guardado exitosamente!")

Sistema guardado exitosamente!


In [17]:
 def realizar_busqueda(query, k=5):
        """Función para realizar búsquedas"""
        print(f"\nBuscando: {query}")
        resultados = buscar(query, sistema, k)

        if not resultados:
            print("No se encontraron resultados relevantes.")
            return

        print("\nResultados encontrados:")
        for r in resultados:
            print(f"\nRanking: {r['ranking']}")
            print(f"Tipo: {r['tipo']}")
            print(f"Lista: {r['lista']} - Partido: {r['partido']}")
            print(f"Presidente: {r['presidente']}")
            print(f"ID: {r['id_oracion']}")
            print("\nContexto:")
            print(r['texto_contexto'])
            print(f"\nDistancia: {r['distancia']:.4f}")

            if r['tipo'] == 'entrevista':
                print(f"\nNúmero de entrevista: {r['numero_entrevista']}")
                print(f"Tema: {r['tema']}")
                print(f"Descripción: {r['descripcion']}")


# Cargar sistema

In [10]:
def cargar_sistema():
    """Carga el sistema de búsqueda guardado"""
    print("Cargando sistema de búsqueda...")
    with open('sistema_busqueda.pkl', 'rb') as f:
        data = pickle.load(f)

    data['index'] = faiss.deserialize_index(data['index'])
    return data

In [11]:
def normalizar_texto(texto):
    """Normaliza el texto: elimina tildes, convierte a minúsculas y elimina caracteres especiales"""
    if not isinstance(texto, str):
        return ""
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar tildes
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto)
                   if unicodedata.category(c) != 'Mn')
    # Eliminar caracteres especiales
    texto = re.sub(r'[^\w\s]', ' ', texto)
    # Eliminar espacios múltiples
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

In [12]:
def es_nombre_presidente(query, presidente):
    """Verifica si la consulta corresponde al nombre del presidente"""
    # Normalizar tanto la consulta como el nombre del presidente
    query_norm = normalizar_texto(query)
    presidente_norm = normalizar_texto(presidente)

    # Obtener palabras normalizadas
    query_words = set(query_norm.split())
    presidente_words = set(presidente_norm.split())

    # Contar palabras coincidentes
    palabras_coincidentes = query_words.intersection(presidente_words)

    # Verificar si el nombre completo está contenido
    if query_norm in presidente_norm or presidente_norm in query_norm:
        return True

    # Verificar coincidencia de palabras individuales
    return len(palabras_coincidentes) >= 2

In [13]:
def calcular_relevancia(query, texto, meta):
    """Calcula un puntaje de relevancia incluyendo peso especial para biografías de presidentes"""
    # Factores de relevancia
    factores = {
        'palabras_clave': 0,
        'exactitud': 0,
        'tipo_doc': 0,
        'posicion': 0,
        'longitud': 0
    }

    # Normalizar textos para comparación
    texto_norm = normalizar_texto(texto)
    query_norm = normalizar_texto(query)
    query_words = set(query_norm.split())

    # Contar palabras clave encontradas
    palabras_encontradas = sum(1 for word in query_words if word in texto_norm)
    factores['palabras_clave'] = palabras_encontradas / len(query_words) if query_words else 0

    # Verificar coincidencia exacta de frases
    if query_norm in texto_norm:
        factores['exactitud'] = 1.0

    # Peso por tipo de documento con ajuste para biografías de presidentes
    pesos_tipo = {
        'plan': 1.3,
        'entrevista': 1.2,
        'biografia': 1.0
    }
    peso_base = pesos_tipo.get(meta['tipo'], 1.0)

    # Ajustar peso si es biografía del presidente buscado
    if meta['tipo'] == 'biografia' and es_nombre_presidente(query, meta['presidente']):
        peso_base *= 2.5  # Aumentar más el peso para biografías del presidente buscado
        factores['exactitud'] = 1.0  # Dar máxima exactitud si coincide el nombre

    factores['tipo_doc'] = peso_base

    # Posición de las palabras clave
    primera_aparicion = min((texto_norm.find(word) for word in query_words
                           if word in texto_norm), default=len(texto_norm))
    factores['posicion'] = 1.0 - (primera_aparicion / len(texto_norm))

    # Penalización por longitud
    palabras_texto = len(texto.split())
    if 10 <= palabras_texto <= 50:
        factores['longitud'] = 1.0
    else:
        factores['longitud'] = 0.8

    # Pesos para cada factor
    pesos = {
        'palabras_clave': 0.35,
        'exactitud': 0.25,
        'tipo_doc': 0.20,
        'posicion': 0.15,
        'longitud': 0.05
    }

    # Calcular puntaje final
    puntaje = sum(factor * pesos[nombre] for nombre, factor in factores.items())
    return puntaje

In [14]:
def buscar(query, k=5, umbral_similitud=0.3):
    """Realiza una búsqueda mejorada con mejor ranking"""
    sistema = cargar_sistema()

    # Pre-filtrado con TF-IDF
    query_vec = sistema['vectorizer'].transform([query])
    similitudes = cosine_similarity(query_vec, sistema['tfidf_matrix']).flatten()
    indices_relevantes = np.where(similitudes > umbral_similitud)[0]

    if len(indices_relevantes) == 0:
        return []

    # Búsqueda semántica con FAISS
    model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
    query_embedding = model.encode([query]).astype('float32')
    D, I = sistema['index'].search(query_embedding, k*2)  # Buscamos más resultados para filtrar

    # Preparar resultados con nuevo sistema de ranking
    resultados = []
    for i, (dist, idx) in enumerate(zip(D[0], I[0])):
        if idx < len(sistema['metadata']):
            meta = sistema['metadata'][idx]

            # Calcular relevancia personalizada
            relevancia = calcular_relevancia(
                query,
                meta['texto_original'],
                meta
            )

            # Ajustar distancia por relevancia
            dist_ajustada = dist / (relevancia + 0.1)  # Evitar división por cero

            resultado = {
                'distancia_original': dist,
                'relevancia': relevancia,
                'distancia_ajustada': dist_ajustada,
                'texto_original': meta['texto_original'],
                'texto_contexto': meta['texto_contexto'],
                'tipo': meta['tipo'],
                'lista': meta['lista'],
                'partido': meta['partido'],
                'presidente': meta['presidente'],
                'id_oracion': meta['id_oracion']
            }

            if meta['tipo'] == 'entrevista':
                resultado.update({
                    'numero_entrevista': meta['numero_entrevista'],
                    'descripcion': meta['descripcion'],
                    'tema': meta['tema']
                })

            resultados.append(resultado)

    # Ordenar por relevancia y distancia ajustada
    resultados = sorted(resultados,
                       key=lambda x: (-x['relevancia'], x['distancia_ajustada']))

    # Tomar los k mejores resultados
    return resultados[:k]

In [15]:
def mostrar_resultados(query, k=5):
    """Muestra los resultados de búsqueda de manera formateada"""
    print(f"\nBuscando: {query}")
    resultados = buscar(query, k)

    if not resultados:
        print("No se encontraron resultados relevantes.")
        return

    print("\nResultados encontrados:")
    for i, r in enumerate(resultados, 1):
        print(f"\nRanking: {i}")
        print(f"Tipo: {r['tipo']}")
        print(f"Lista: {r['lista']} - Partido: {r['partido']}")
        print(f"Presidente: {r['presidente']}")
        print(f"ID: {r['id_oracion']}")
        print(f"Relevancia: {r['relevancia']:.4f}")
        print("\nContexto:")
        print(r['texto_contexto'])

        if r['tipo'] == 'entrevista':
            print(f"\nNúmero de entrevista: {r['numero_entrevista']}")
            print(f"Tema: {r['tema']}")
            print(f"Descripción: {r['descripcion']}")

In [16]:
query = "Daniel Noboa"

In [30]:
sistema = cargar_sistema()

Cargando sistema de búsqueda...


In [17]:
mostrar_resultados(query, 5)


Buscando: Daniel Noboa
Cargando sistema de búsqueda...

Resultados encontrados:

Ranking: 1
Tipo: biografia
Lista: 7 - Partido: MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN
Presidente: DANIEL NOBOA AZIN
ID: 7_1_1
Relevancia: 1.3000

Contexto:
Su trayectoria incluye ser deportista y presentadora de deportes en televisión, antes de ingresar a la política. Fue asambleísta en tres periodos consecutivos:

2017-2021
2021-2023
2023-2024
Renunció a la Asamblea en 2024 para postularse como candidata a la vicepresidencia junto a Henry Kronfle. [RELEVANTE] Daniel Noboa – Movimiento Acción Democrática Nacional (ADN)
Daniel Noboa
Daniel Noboa Azín, de 36 años, es el actual Presidente de la República del Ecuador y busca la reelección en las elecciones de 2025 bajo el Movimiento Acción Democrática Nacional (ADN). Su incursión en la política comenzó en 2021, cuando fue elegido asambleísta por Santa Elena con el desaparecido partido Ecuatoriano Unido, vinculado a Edwin Moreno, hermano del expresidente 

# GENERACION DE RESPUESTAS

# Generación de respuestas

In [18]:
# 🔹 Frases irrelevantes que deben ser eliminadas antes de buscar
FRASES_IRRELEVANTES = [
    "que candidatos proponen",
    "qué candidatos proponen",
    "candidatos proponen",
    "qué candidatos plantean",
    "qué candidatos consideran",
    "qué candidatos tienen en su plan",
    "qué candidatos están a favor de",
    "que propone",
    "quién propone",
    "quienes proponen",
    "qué partido propone",
    "qué candidatos impulsan"
]

In [19]:
def limpiar_query(query):
    """Limpia la consulta eliminando frases irrelevantes para mejorar la búsqueda."""
    query = query.lower().strip()
    
    # Eliminar frases completas irrelevantes
    for frase in FRASES_IRRELEVANTES:
        query = query.replace(frase, "").strip()

    # Eliminar espacios dobles después de limpiar
    query = re.sub(r'\s+', ' ', query)

    # Si después de limpiar la consulta está vacía, devolvemos la original
    return query if query else "No válida"

In [20]:
def generar_respuesta_ollama(query, documentos):
    """Genera una respuesta estrictamente basada en los documentos obtenidos en la búsqueda."""

    if not documentos:
        return "No se encontraron documentos relevantes para generar una respuesta."

    # 🔹 Construcción de la lista de respuestas con información real
    ranking_info = []
    candidatos_info = []
    fuentes_info = []
    
    for i, doc in enumerate(documentos, 1):
        candidato = doc.get("presidente", "Candidato desconocido")
        partido = doc.get("partido", "Partido desconocido")
        tipo = doc.get("tipo", "Otro")
        relevancia = doc.get("relevancia", 0)
        distancia = doc.get("distancia_ajustada", 0)
        contexto = doc.get("texto_contexto", "").strip()

        # 🔹 Ranking inicial
        ranking_info.append(
            f"🔍 {candidato} - TIPO: {tipo} - RELEVANCIA: {relevancia:.4f} - DISTANCIA: {distancia:.4f}"
        )

        # 🔹 Información detallada del candidato
        candidatos_info.append(
            f"📌 {candidato} ({partido}):\n"
            f"Fuente: {tipo.capitalize()}\n"
            f"📄 Declaración: \"{contexto}\"\n"
        )

        # 🔹 Registro de la fuente completa
        fuentes_info.append(
            f"📚 {tipo.upper()} - {candidato} ({partido})\nTexto completo:\n{contexto}\n"
        )

    # 🔹 Construcción del prompt estructurado para Ollama
    prompt = f"""Genera una respuesta detallada y clara basada ÚNICAMENTE en la información recuperada:

💭 **Pregunta:** {query}

🔝 **Ranking final de los resultados:**
{chr(10).join(ranking_info)}

📝 **Respuesta:**
Se han encontrado los siguientes candidatos que mencionan la construcción de hospitales en sus propuestas:

{chr(10).join(candidatos_info)}

💡 **Análisis general:**  
De acuerdo con la información recuperada, se han identificado {len(documentos)} candidatos que incluyen la construcción o mejora de hospitales en sus propuestas. Algunas propuestas destacan la construcción de hospitales en zonas rurales, mientras que otras enfatizan la modernización de infraestructuras existentes o la mejora de la atención médica.

📚 **Fuentes principales consultadas:**
{chr(10).join(fuentes_info)}
"""

    try:
        # 🔹 Hacer la solicitud a Ollama sin streaming para recibir la respuesta completa más rápido
        respuesta = requests.post(
            "http://localhost:11434/api/generate",
            json={"model": "mistral", "prompt": prompt, "stream": False}
        )
        respuesta.raise_for_status()

        return respuesta.json().get("response", "No se pudo generar una respuesta.")

    except requests.exceptions.RequestException as e:
        return f"Error en la solicitud a Ollama: {e}"
    except ValueError as e:
        return f"Error al procesar la respuesta del modelo: {e}"

In [21]:
def buscar_y_generar_respuesta(query, k=5):
    """Realiza la búsqueda con el sistema y genera una respuesta solo con documentos encontrados."""
    
    query_limpia = limpiar_query(query)
    print(f"🔍 Buscando: {query_limpia}")

    if query_limpia == "No válida":
        return "No se encontró una consulta válida para la búsqueda."

    # 🔹 Solo usamos documentos recuperados del corpus (SIN datos inventados)
    documentos = buscar(query_limpia, min(k, 5))  

    if not documentos:
        return "No se encontraron documentos relevantes para generar una respuesta."

    respuesta = generar_respuesta_ollama(query, documentos)

    return respuesta

In [25]:
query = "quien es daniel noboa"
k = 5

In [26]:
respuesta = buscar_y_generar_respuesta(query, k)

🔍 Buscando: quien es daniel noboa
Cargando sistema de búsqueda...


In [27]:
print(respuesta)

¡Gracias por tu pregunta! En resumen, hemos encontrado cinco candidatos que incluyen la construcción o mejora de hospitales en sus propuestas. Algunos proponen la construcción de hospitales en zonas rurales, mientras que otros enfatizan la modernización de infraestructuras existentes o la mejora de la atención médica.

  Los candidatos incluyen: Pedro Gracia del Partido Socialista Ecuatoriano, quien propone construir un hospital que proporcionará empleo a más de 35,000 personas; y Luis Felipe Tillería del Partido Avanza, cuya propuesta incluye la modernización de infraestructuras existentes. También se han encontrado tres candidatos más del Partido Avanza: uno quiere resistir al sistema para asegurar que nadie esté por encima de la ley; otro solicitó una réplica cuando había imprecisiones en un artículo publicado por The Times; y el último ha declarado su intención de construir hospitales en zonas rurales.

  Las fuentes principales consultadas para esta respuesta incluyen entrevistas 

In [29]:
def mostrar_documentos(documentos):
    """Muestra los documentos encontrados de manera formateada"""
    print("\n🔍 Documentos encontrados:")
    for i, doc in enumerate(documentos, 1):
        print(f"\n📄 Documento {i}:")
        print(f"Tipo: {doc['tipo'].upper()}")
        print(f"Candidato: {doc['presidente']}")
        print(f"Partido: {doc['partido']}")
        print(f"Relevancia: {doc['relevancia']:.4f}")
        print(f"Distancia ajustada: {doc['distancia_ajustada']:.4f}")
        print("\nContexto:")
        print(doc['texto_contexto'])
        if doc['tipo'] == 'entrevista':
            print(f"\nTema: {doc.get('tema', 'No especificado')}")
        print("\n" + "-"*50)

In [30]:
import requests
import json
import re

# Patrones de consulta específicos
QUERY_PATTERNS = {
    'biografia': [
        r'^quien es (.+)',
        r'^quién es (.+)',
        r'^biografia de (.+)',
    ],
    'propuestas_verbo': [
        r'(?:que|qué) candidatos? proponen? (.+)',
        r'quienes? proponen? (.+)',
    ],
    'entrevista': [
        r'(?:que|qué) temas se tratan en (?:la )?entrevista de (.+)',
        r'(?:temas|tema) de (?:la )?entrevista de (.+)',
    ],
    'partido_candidato': [
        r'(?:el )?candidato (.+?) (?:a )?(?:que|qué|cual|cuál) partido pertenece',
    ],
    'partido_nombre': [
        r'(?:que|qué|cual|cuál) candidatos? pertenecen? (?:a)?(?:l)? partido (.+)',
    ],
    'propuestas_candidato': [
        r'propuestas (?:del candidato )?(.+)',
        r'(?:que|qué) propone (.+)',
    ]
}

def identificar_tipo_consulta(query):
    """Identifica el tipo de consulta y extrae el parámetro relevante."""
    query = query.lower().strip()
    
    for tipo, patrones in QUERY_PATTERNS.items():
        for patron in patrones:
            match = re.search(patron, query, re.IGNORECASE)
            if match:
                return tipo, match.group(1).strip()
    
    return "general", query

def limpiar_query(query, tipo, param):
    """Limpia y ajusta la consulta según el tipo."""
    if tipo == "biografia":
        return param
    elif tipo == "propuestas_verbo":
        return f"propuestas {param}"
    elif tipo == "entrevista":
        return f"entrevista {param}"
    elif tipo == "partido_candidato":
        return f"{param} partido"
    elif tipo == "partido_nombre":
        return f"partido {param}"
    elif tipo == "propuestas_candidato":
        return f"propuestas {param}"
    
    return query.lower().strip()

def generar_prompt_especifico(tipo, query, documentos):
    """Genera un prompt específico según el tipo de consulta."""
    prompt_base = f"""Actúa como un asistente político especializado.
Genera una respuesta detallada basada ÚNICAMENTE en la siguiente información:

Pregunta: {query}

Documentos disponibles:"""

    # Agregar documentos
    for i, doc in enumerate(documentos, 1):
        prompt_base += f"""

Documento {i}:
Tipo: {doc['tipo'].upper()}
Candidato: {doc['presidente']}
Partido: {doc['partido']}
Relevancia: {doc['relevancia']:.4f}
Contexto: {doc['texto_contexto']}"""
        if doc['tipo'] == 'entrevista':
            prompt_base += f"\nTema: {doc.get('tema', 'No especificado')}"

    # Instrucciones específicas según tipo
    instrucciones = {
        'biografia': """
Instrucciones:
1. Presenta la información biográfica completa del candidato
2. Incluye su trayectoria política y profesional
3. Menciona su afiliación política actual
4. Describe su experiencia y logros relevantes
5. No incluyas información que no esté en los documentos""",
        
        'propuestas_verbo': """
Instrucciones:
1. Lista TODOS los candidatos que hacen esta propuesta
2. Para cada candidato, detalla:
   - Su nombre y partido
   - La propuesta específica
   - Detalles o contexto adicional si está disponible
3. Incluye cualquier información relevante sobre la implementación o plazos
4. Organiza la información por candidato""",
        
        'entrevista': """
Instrucciones:
1. Enumera TODOS los temas tratados en la entrevista
2. Proporciona detalles específicos de cada tema
3. Incluye las declaraciones más relevantes
4. Mantén el orden cronológico si es relevante
5. Menciona el contexto de la entrevista""",
        
        'partido_candidato': """
Instrucciones:
1. Indica claramente el partido al que pertenece el candidato
2. Incluye cualquier información sobre su historia política
3. Menciona cambios de partido si se mencionan
4. Proporciona contexto relevante sobre su afiliación""",
        
        'partido_nombre': """
Instrucciones:
1. Lista TODOS los candidatos que pertenecen a este partido
2. Para cada candidato incluye:
   - Su nombre completo
   - Su cargo o rol
   - Trayectoria en el partido si se menciona
3. Incluye información relevante sobre el partido""",
        
        'propuestas_candidato': """
Instrucciones:
1. Enumera TODAS las propuestas del candidato
2. Organiza las propuestas por temas
3. Incluye detalles específicos de cada propuesta
4. Menciona plazos o mecanismos de implementación si se especifican"""
    }

    prompt_base += instrucciones.get(tipo, """
Instrucciones:
1. Resume la información más relevante
2. Organiza la respuesta de manera clara
3. Incluye todos los detalles importantes""")

    return prompt_base

def generar_respuesta_ollama(query, documentos, max_intentos=3):
    """Genera una respuesta usando Ollama con mejor manejo de errores."""
    if not documentos:
        return "No se encontraron documentos relevantes."

    # Identificar tipo de consulta
    tipo, param = identificar_tipo_consulta(query)
    
    # Generar prompt específico
    prompt = generar_prompt_especifico(tipo, query, documentos)

    for intento in range(max_intentos):
        try:
            session = requests.Session()
            session.timeout = None
            
            respuesta = session.post(
                "http://localhost:11434/api/generate",
                json={
                    "model": "mistral",
                    "prompt": prompt,
                    "stream": False,
                    "options": {
                        "temperature": 0.7,
                        "top_p": 0.9,
                        "num_predict": 2048
                    }
                }
            )
            
            if respuesta.status_code == 200:
                return respuesta.json().get("response", "")
                
        except Exception as e:
            print(f"\n⚠️ Error en intento {intento + 1}: {str(e)}")
            if intento == max_intentos - 1:
                return generar_respuesta_fallback(tipo, documentos)
    
    return generar_respuesta_fallback(tipo, documentos)

def generar_respuesta_fallback(tipo, documentos):
    """Genera una respuesta estructurada sin Ollama."""
    respuesta = []
    
    if tipo == "biografia":
        doc_bio = next((doc for doc in documentos if doc['tipo'].lower() == 'biografia'), None)
        if doc_bio:
            respuesta.extend([
                f"📌 Biografía de {doc_bio['presidente']}:",
                f"Partido: {doc_bio['partido']}",
                f"\nInformación biográfica:",
                doc_bio['texto_contexto']
            ])
    
    elif tipo in ["propuestas_verbo", "propuestas_candidato"]:
        respuesta.append("📋 Propuestas encontradas:")
        for doc in documentos:
            respuesta.extend([
                f"\n• Candidato: {doc['presidente']} ({doc['partido']})",
                f"  {doc['texto_contexto']}"
            ])
    
    elif tipo == "entrevista":
        entrevistas = [doc for doc in documentos if doc['tipo'].lower() == 'entrevista']
        for entrevista in entrevistas:
            respuesta.extend([
                f"\n📌 Entrevista con {entrevista['presidente']}:",
                f"Temas tratados: {entrevista.get('tema', 'No especificado')}",
                f"Contenido: {entrevista['texto_contexto']}"
            ])
    
    elif tipo in ["partido_candidato", "partido_nombre"]:
        respuesta.append("🏛️ Información de partido:")
        for doc in documentos:
            respuesta.extend([
                f"\n• {doc['presidente']}",
                f"  Partido: {doc['partido']}",
                f"  {doc['texto_contexto']}"
            ])
    
    return "\n".join(respuesta)

def buscar_y_generar_respuesta(query, k=5):
    """Función principal mejorada."""
    # Identificar tipo y parámetro
    tipo, param = identificar_tipo_consulta(query)
    print(f"\n🔍 Tipo de consulta: {tipo}")
    print(f"🎯 Parámetro identificado: {param}")
    
    # Limpiar y ajustar query
    query_ajustada = limpiar_query(query, tipo, param)
    print(f"📝 Query ajustada: {query_ajustada}")
    
    # Realizar búsqueda
    documentos = buscar(query_ajustada, k)
    
    if not documentos:
        return "No se encontraron documentos relevantes."
    
    # Mostrar documentos encontrados
    mostrar_documentos(documentos)
    
    # Generar respuesta
    print("\n⌛ Generando respuesta...")
    return generar_respuesta_ollama(query, documentos)

if __name__ == "__main__":
    print("🔎 Sistema de búsqueda optimizada con respuesta estructurada y basada en documentos.")

    while True:
        print("\n" + "="*50)
        query = input("\nIngrese su pregunta (o 'salir' para terminar): ")
        if query.lower() == 'salir':
            break

        k = input("Número de documentos a usar (Enter para usar 5): ")
        k = int(k) if k.strip() else 5

        respuesta = buscar_y_generar_respuesta(query, k)
        print("\n📢 Respuesta generada por el modelo:")
        print(respuesta)

🔎 Sistema de búsqueda optimizada con respuesta estructurada y basada en documentos.




Ingrese su pregunta (o 'salir' para terminar):  quien es luisa gonzales?
Número de documentos a usar (Enter para usar 5):  



🔍 Tipo de consulta: biografia
🎯 Parámetro identificado: luisa gonzales?
📝 Query ajustada: luisa gonzales?
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: ENTREVISTA
Candidato: LUISA GONZALEZ
Partido: REVOLUCIÓN CIUDADANA - RETO
Relevancia: 0.6050
Distancia ajustada: 3.3042

Contexto:
Hoy se posesiona Donald Trump. Esperamos que la política migratoria de Donald Trump sea más humana, especialmente por la alta migración ecuatoriana. [RELEVANTE] Luisa González, gracias por acompañarnos. Gracias a ustedes. Entrevista a Henry Kronfle – Ecuavisa

La semana pasada avanzamos en la papeleta de las elecciones 2025 para hablar con los presidenciables.

Tema: Debate presidencial, propuestas de gobierno (Protege, Genera, Impulsa), crisis energética y mantenimiento de termoeléctricas, seguridad y combate a la delincuencia, coordinación institucional en justicia, corrupción y sistema judicial, relación con México y asilo de Jorge Glas, inversión extranjera, bases mili


Ingrese su pregunta (o 'salir' para terminar):  quien pertenece al partido movimiento antino
Número de documentos a usar (Enter para usar 5):  



🔍 Tipo de consulta: general
🎯 Parámetro identificado: quien pertenece al partido movimiento antino
📝 Query ajustada: quien pertenece al partido movimiento antino
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: ENTREVISTA
Candidato: FRANCESCO TABACCHI
Partido: MOVIMIENTO CREO, CREANDO OPORTUNIDADES
Relevancia: 0.4916
Distancia ajustada: 5.8734

Contexto:
Fui candidato a la prefectura del Guayas, luego fui gobernador hasta el último día del gobierno pasado. Una semana antes de recibir esta propuesta por parte de los pueblos montubios y algunos gremios productivos, decidí aceptarla. [RELEVANTE] El movimiento Creo hace sus primarias, pero yo no participé en ellas. El movimiento democrático interno me acepta. Yo me autopropuse y aquí estoy.

Tema: Motivación para postularse, respaldo del sector agropecuario, proceso interno en CREO, representación ideológica del movimiento, seguridad y lucha contra el crimen, influencia del modelo de Nayib Bukele, escuadrón


Ingrese su pregunta (o 'salir' para terminar):  quien pertenece al movimiento andino?
Número de documentos a usar (Enter para usar 5):  



🔍 Tipo de consulta: general
🎯 Parámetro identificado: quien pertenece al movimiento andino?
📝 Query ajustada: quien pertenece al movimiento andino?
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: ENTREVISTA
Candidato: ANDREA GONZALEZ
Partido: PARTIDO SOCIEDAD PATRIÓTICA 21 DE ENERO
Relevancia: 0.4561
Distancia ajustada: 5.1721

Contexto:
El 80 % de la cocaína de Latinoamérica sale por nuestras costas. Porque hemos perdido el control. [RELEVANTE] Mi binomio, Galo Moncayo, es contralmirante. Lo llamamos el "vice de oro" porque representa el respeto que antes tenía nuestra Marina. Nuestra propuesta es recuperar el control del perfil costero.

Tema: Candidatura presidencial, separación de Construye, alianza con Sociedad Patriótica, uso del petróleo para el desarrollo, minería legal e ilegal, impacto del oro ilegal, estrategia de seguridad territorial, narcotráfico y control marítimo, reducción de impuestos (ISD), fomento del empleo, reformas estructurales 


Ingrese su pregunta (o 'salir' para terminar):  movimiento andino
Número de documentos a usar (Enter para usar 5):  



🔍 Tipo de consulta: general
🎯 Parámetro identificado: movimiento andino
📝 Query ajustada: movimiento andino
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: PLAN
Candidato: JUAN IVAN CUEVA
Partido: MOVIMIENTO AMIGO, ACCIÓN MOVILIZADORA INDEPENDIENTE GENERANDO OPORTUNIDADES
Relevancia: 0.3000
Distancia ajustada: 8.2077

Contexto:
Cristina Eugenia Reyes Hidalgo
C.I. N° 0917295016
CANDIDATA A VICEPRESIDENTA DE LA REPUBLICA DEL ECUADOR
MOVIMIENTO AMIGO LISTA 16
www.movimientoamigo.com [RELEVANTE] Yo, Juan Iván Cueva Vivanco, con C.I. N°1103739817, candidato a la Presidencia de la

República por el Movimiento AMIGO, Acción, Movilizadora Independiente Generando

Oportunidades LISTA 16, ratifico el contenido del presente Plan de Trabajo, me
comprometo a impulsar y ejecutar su cumplimiento en beneficio de todas y todos los
ecuatorianos, con Capacidad, Firmeza y Honradez. Juan lván Cueva Vivaneo
C.I.

--------------------------------------------------

📄 Documen


Ingrese su pregunta (o 'salir' para terminar):  cuales son las propuestas que hacen los candidatos?
Número de documentos a usar (Enter para usar 5):  



🔍 Tipo de consulta: propuestas_candidato
🎯 Parámetro identificado: que hacen los candidatos?
📝 Query ajustada: propuestas que hacen los candidatos?
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: ENTREVISTA
Candidato: CARLOS RABASCALL
Partido: PARTIDO IZQUIERDA DEMOCRÁTICA
Relevancia: 0.7114
Distancia ajustada: 4.9764

Contexto:
Creo que todo espacio es importante, aunque el formato del debate es una camisa de fuerza que limita el desarrollo de ideas. Sin embargo, son oportunidades de acercamiento con la ciudadanía. [RELEVANTE] Algunos candidatos pueden elegir la confrontación, mientras que yo prefiero centrarme en los problemas, en las soluciones y en las propuestas. Y, claro, lo que el ecuatoriano quiere saber es cómo se ejecutarán las cosas. Sobre su propuesta de seguridad y la creación de una policía civil
Usted presentó un plan de trabajo de 98 páginas con cinco ejes.

Tema: Seguridad y creación de una policía civil especializada, reestructuración


Ingrese su pregunta (o 'salir' para terminar):  salir


In [31]:
import requests
import json
import re

# Patrones de consulta específicos
QUERY_PATTERNS = {
    'biografia': [
        r'^quien es (.+)',
        r'^quién es (.+)',
        r'^biografia de (.+)',
    ],
    'propuestas_verbo': [
        r'(?:que|qué) candidatos? proponen? (.+)',
        r'quienes? proponen? (.+)',
    ],
    'entrevista': [
        r'(?:que|qué) temas se tratan en (?:la )?entrevista de (.+)',
        r'(?:temas|tema) de (?:la )?entrevista de (.+)',
    ],
    'partido_candidato': [
        r'(?:el )?candidato (.+?) (?:a )?(?:que|qué|cual|cuál) partido pertenece',
    ],
    'partido_nombre': [
        r'(?:que|qué|cual|cuál) candidatos? pertenecen? (?:a)?(?:l)? partido (.+)',
    ],
    'propuestas_candidato': [
        r'propuestas (?:del candidato )?(.+)',
        r'(?:que|qué) propone (.+)',
    ]
}

In [32]:
def identificar_tipo_consulta(query):
    """Identifica el tipo de consulta y extrae el parámetro relevante."""
    query = query.lower().strip()
    
    for tipo, patrones in QUERY_PATTERNS.items():
        for patron in patrones:
            match = re.search(patron, query, re.IGNORECASE)
            if match:
                return tipo, match.group(1).strip()
    
    return "general", query

In [33]:

def limpiar_query(query, tipo, param):
    """Limpia y ajusta la consulta según el tipo."""
    if tipo == "biografia":
        return param
    elif tipo == "propuestas_verbo":
        return f"propuestas {param}"
    elif tipo == "entrevista":
        return f"entrevista {param}"
    elif tipo == "partido_candidato":
        return f"{param} partido"
    elif tipo == "partido_nombre":
        return f"partido {param}"
    elif tipo == "propuestas_candidato":
        return f"propuestas {param}"
    
    return query.lower().strip()

In [34]:
def generar_prompt_especifico(tipo, query, documentos):
    """Genera un prompt específico según el tipo de consulta."""
    prompt_base = f"""Actúa como un asistente político especializado.
Genera una respuesta detallada basada ÚNICAMENTE en la siguiente información:

Pregunta: {query}

Documentos disponibles:"""

    # Agregar documentos
    for i, doc in enumerate(documentos, 1):
        prompt_base += f"""

Documento {i}:
Tipo: {doc['tipo'].upper()}
Candidato: {doc['presidente']}
Partido: {doc['partido']}
Relevancia: {doc['relevancia']:.4f}
Contexto: {doc['texto_contexto']}"""
        if doc['tipo'] == 'entrevista':
            prompt_base += f"\nTema: {doc.get('tema', 'No especificado')}"

    # Instrucciones específicas según tipo
    instrucciones = {
        'biografia': """
Instrucciones:
1. Presenta la información biográfica completa del candidato
2. Incluye su trayectoria política y profesional
3. Menciona su afiliación política actual
4. Describe su experiencia y logros relevantes
5. No incluyas información que no esté en los documentos""",
        
        'propuestas_verbo': """
Instrucciones:
1. Lista TODOS los candidatos que hacen esta propuesta
2. Para cada candidato, detalla:
   - Su nombre y partido
   - La propuesta específica
   - Detalles o contexto adicional si está disponible
3. Incluye cualquier información relevante sobre la implementación o plazos
4. Organiza la información por candidato""",
        
        'entrevista': """
Instrucciones:
1. Enumera TODOS los temas tratados en la entrevista
2. Proporciona detalles específicos de cada tema
3. Incluye las declaraciones más relevantes
4. Mantén el orden cronológico si es relevante
5. Menciona el contexto de la entrevista""",
        
        'partido_candidato': """
Instrucciones:
1. Indica claramente el partido al que pertenece el candidato
2. Incluye cualquier información sobre su historia política
3. Menciona cambios de partido si se mencionan
4. Proporciona contexto relevante sobre su afiliación""",
        
        'partido_nombre': """
Instrucciones:
1. Lista TODOS los candidatos que pertenecen a este partido
2. Para cada candidato incluye:
   - Su nombre completo
   - Su cargo o rol
   - Trayectoria en el partido si se menciona
3. Incluye información relevante sobre el partido""",
        
        'propuestas_candidato': """
Instrucciones:
1. Enumera TODAS las propuestas del candidato
2. Organiza las propuestas por temas
3. Incluye detalles específicos de cada propuesta
4. Menciona plazos o mecanismos de implementación si se especifican"""
    }

    prompt_base += instrucciones.get(tipo, """
Instrucciones:
1. Resume la información más relevante
2. Organiza la respuesta de manera clara
3. Incluye todos los detalles importantes""")

    prompt_base += """

IMPORTANTE:
- No uses viñetas, números ni listas en tu respuesta al menos que sea necesario
- No menciones que estás siguiendo instrucciones
- No agregues información que no esté en los documentos
- Mantén un tono profesional pero accesible"""
    return prompt_base

In [35]:
def generar_respuesta_ollama(query, documentos, max_intentos=3):
    """Genera una respuesta usando Ollama con mejor manejo de errores."""
    if not documentos:
        return "No se encontraron documentos relevantes."

    # Identificar tipo de consulta
    tipo, param = identificar_tipo_consulta(query)
    
    # Generar prompt específico
    prompt = generar_prompt_especifico(tipo, query, documentos)

    for intento in range(max_intentos):
        try:
            session = requests.Session()
            session.timeout = None
            
            respuesta = session.post(
                "http://localhost:11434/api/generate",
                json={
                    "model": "mistral",
                    "prompt": prompt,
                    "stream": False,
                    "options": {
                        "temperature": 0.7,
                        "top_p": 0.9,
                        "num_predict": 2048
                    }
                }
            )
            
            if respuesta.status_code == 200:
                return respuesta.json().get("response", "")
                
        except Exception as e:
            print(f"\n⚠️ Error en intento {intento + 1}: {str(e)}")
            if intento == max_intentos - 1:
                return generar_respuesta_fallback(tipo, documentos)
    
    return generar_respuesta_fallback(tipo, documentos)

In [36]:
def generar_respuesta_fallback(tipo, documentos):
    """Genera una respuesta estructurada sin Ollama."""
    respuesta = []
    
    if tipo == "biografia":
        doc_bio = next((doc for doc in documentos if doc['tipo'].lower() == 'biografia'), None)
        if doc_bio:
            respuesta.extend([
                f"📌 Biografía de {doc_bio['presidente']}:",
                f"Partido: {doc_bio['partido']}",
                f"\nInformación biográfica:",
                doc_bio['texto_contexto']
            ])
    
    elif tipo in ["propuestas_verbo", "propuestas_candidato"]:
        respuesta.append("📋 Propuestas encontradas:")
        for doc in documentos:
            respuesta.extend([
                f"\n• Candidato: {doc['presidente']} ({doc['partido']})",
                f"  {doc['texto_contexto']}"
            ])
    
    elif tipo == "entrevista":
        entrevistas = [doc for doc in documentos if doc['tipo'].lower() == 'entrevista']
        for entrevista in entrevistas:
            respuesta.extend([
                f"\n📌 Entrevista con {entrevista['presidente']}:",
                f"Temas tratados: {entrevista.get('tema', 'No especificado')}",
                f"Contenido: {entrevista['texto_contexto']}"
            ])
    
    elif tipo in ["partido_candidato", "partido_nombre"]:
        respuesta.append("🏛️ Información de partido:")
        for doc in documentos:
            respuesta.extend([
                f"\n• {doc['presidente']}",
                f"  Partido: {doc['partido']}",
                f"  {doc['texto_contexto']}"
            ])
    
    return "\n".join(respuesta)

In [37]:
def buscar_y_generar_respuesta(query, k=5):
    """Función principal mejorada."""
    # Identificar tipo y parámetro
    tipo, param = identificar_tipo_consulta(query)
    print(f"\n🔍 Tipo de consulta: {tipo}")
    print(f"🎯 Parámetro identificado: {param}")
    
    # Limpiar y ajustar query
    query_ajustada = limpiar_query(query, tipo, param)
    print(f"📝 Query ajustada: {query_ajustada}")
    
    # Realizar búsqueda
    documentos = buscar(query_ajustada, k)
    
    if not documentos:
        return "No se encontraron documentos relevantes."
    
    # Mostrar documentos encontrados
    mostrar_documentos(documentos)
    
    # Generar respuesta
    print("\n⌛ Generando respuesta...")
    return generar_respuesta_ollama(query, documentos)

In [38]:
query = "propuestas del candidato henry cucalon"

In [39]:
respuesta = buscar_y_generar_respuesta(query, 5)


🔍 Tipo de consulta: propuestas_candidato
🎯 Parámetro identificado: henry cucalon
📝 Query ajustada: propuestas henry cucalon
Cargando sistema de búsqueda...

🔍 Documentos encontrados:

📄 Documento 1:
Tipo: BIOGRAFIA
Candidato: HENRY CUCALON
Partido: MOVIMIENTO CONSTRUYE
Relevancia: 1.1833
Distancia ajustada: 3.6910

Contexto:
Es activista y defensora de los derechos de los pueblos indígenas, enfocándose en temas de equidad, desarrollo rural y representación de comunidades en la política. Como candidata a la Vicepresidencia, su papel en la campaña se centra en inclusión social, derechos indígenas y acceso equitativo a los recursos del Estado. [RELEVANTE] Henry Cucalón y Carla Larrea – Movimiento Construye
Henry Cucalón
Henry Cucalón, de 51 años, es abogado por la Universidad Internacional SEK y cuenta con una maestría en Derecho Constitucional y otra en Derecho Administrativo, obtenidas en las Universidades Espíritu Santo y Católica de Guayaquil. Tiene una extensa trayectoria en el serv

In [None]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 🔹 Cargar el modelo de embeddings
modelo_embeddings = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

# 🔹 Ground Truth basado en textos de referencia más completos
ground_truth = {
    "reducción de impuestos": [
        "Propuestas de reducción de impuestos, reforma fiscal, eliminación de tributos innecesarios.",
        "Cómo mejorar la economía bajando los impuestos y ayudando a los contribuyentes."
    ],
    "seguridad ciudadana": [
        "Propuestas para mejorar la seguridad en el país, reducir la delincuencia y fortalecer la policía.",
        "Planes para combatir el crimen organizado y mejorar la protección ciudadana."
    ],
    "educación pública": [
        "Mejoras en la educación pública, acceso a la educación gratuita y reforma educativa.",
        "Planes para fortalecer el sistema educativo y garantizar educación de calidad."
    ],
    "empleo juvenil": [
        "Programas para fomentar el empleo juvenil, subsidios para jóvenes trabajadores.",
        "Propuestas para mejorar las oportunidades laborales para jóvenes."
    ],
    "cambio climático": [
        "Iniciativas para combatir el cambio climático, energías renovables y sostenibilidad.",
        "Planes para la protección del medio ambiente y políticas ecológicas."
    ]
}

In [None]:
def evaluar_sistema_embeddings(queries, k=5):
    """Evalúa la eficacia del sistema usando embeddings de similitud semántica."""
    sistema = cargar_sistema()

    precision_scores = []
    recall_scores = []
    f1_scores = []

    for query in queries:
        print(f"\n🔎 Evaluando query: {query}")

        # Obtener los embeddings del ground truth de la consulta
        embeddings_gt = modelo_embeddings.encode(ground_truth[query])

        # Obtener resultados del sistema
        resultados = buscar(query, k)
        textos_obtenidos = [res['texto_original'] for res in resultados]

        # Si no hay resultados, precisión y recall son 0
        if not textos_obtenidos:
            print("❌ No se encontraron resultados.")
            precision_scores.append(0)
            recall_scores.append(0)
            f1_scores.append(0)
            continue

        # Obtener los embeddings de los textos obtenidos
        embeddings_resultados = modelo_embeddings.encode(textos_obtenidos)

        # Calcular similitudes entre cada resultado y el ground truth
        similitudes = cosine_similarity(embeddings_resultados, embeddings_gt)

        # Se considera relevante un documento si su similitud con algún texto del ground truth es mayor a 0.7
        y_true = [1 if np.max(similitud) > 0.7 else 0 for similitud in similitudes]
        y_pred = [1] * len(textos_obtenidos)

        # Mostrar resultados obtenidos y su similitud
        print("\n📌 **Documentos obtenidos y similitud:**")
        for i, (texto, similitud) in enumerate(zip(textos_obtenidos, similitudes)):
            max_sim = np.max(similitud)
            relevancia = "✅ Relevante" if max_sim > 0.7 else "❌ No relevante"
            print(f"{i+1}. {texto[:150]}... ({relevancia} - Similitud: {max_sim:.2f})")

        # Calcular métricas
        if sum(y_true) > 0:
            precision = precision_score(y_true, y_pred, zero_division=1)
            recall = recall_score(y_true, y_pred, zero_division=1)
            f1 = f1_score(y_true, y_pred, zero_division=1)
        else:
            precision, recall, f1 = 0, 0, 0  # Si no hay coincidencias, la métrica se mantiene en 0

        precision_scores.append(precision)
        recall_scores.append(recall)
        f1_scores.append(f1)

        print(f"\n✅ Precision@{k}: {precision:.4f}")
        print(f"✅ Recall@{k}: {recall:.4f}")
        print(f"✅ F1-Score@{k}: {f1:.4f}")

    # 🔹 Promediar métricas
    avg_precision = np.mean(precision_scores)
    avg_recall = np.mean(recall_scores)
    avg_f1 = np.mean(f1_scores)

    print("\n📊 **Resultados Promedio**")
    print(f"📌 Precision@{k}: {avg_precision:.4f}")
    print(f"📌 Recall@{k}: {avg_recall:.4f}")
    print(f"📌 F1-Score@{k}: {avg_f1:.4f}")


In [None]:
# 🔎 Ejecutar la evaluación con embeddings
queries_de_prueba = ["reducción de impuestos", "seguridad ciudadana", "educación pública", "empleo juvenil", "cambio climático"]
evaluar_sistema_embeddings(queries_de_prueba, k=5)

Cargando sistema de búsqueda...

🔎 Evaluando query: reducción de impuestos
Cargando sistema de búsqueda...
QUERY: reduccion de impuestos - PRESIDENTE: andrea gonzalez - MATCH: 0.00
QUERY: reduccion de impuestos - PRESIDENTE: juan ivan cueva - MATCH: 0.00
QUERY: reduccion de impuestos - PRESIDENTE: pedro granja - MATCH: 0.00

🔝 Ranking final de los resultados:
🔍 ANDREA GONZALEZ - TIPO: entrevista - RELEVANCIA: 0.8808 - DISTANCIA: 1.8893
🔍 ANDREA GONZALEZ - TIPO: biografia - RELEVANCIA: 0.8429 - DISTANCIA: 0.8857
🔍 ANDREA GONZALEZ - TIPO: plan - RELEVANCIA: 0.6211 - DISTANCIA: 4.2237
🔍 FRANCESCO TABACCHI - TIPO: plan - RELEVANCIA: 0.5217 - DISTANCIA: 5.4659
🔍 HENRY KRONFLE KOZHAYA - TIPO: plan - RELEVANCIA: 0.5156 - DISTANCIA: 4.8419

📌 **Documentos obtenidos y similitud:**
1. Sobre la economía y la reducción de impuestos
Ha propuesto reducir impuestos como el ISD.... (✅ Relevante - Similitud: 0.85)
2. Economía: Reducción de impuestos especiales.... (✅ Relevante - Similitud: 0.84)
3. Dis

NameError: name 'precision_score' is not defined

In [None]:
pip install transformers



In [None]:
pip install torch

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5