In [1]:
pip install faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m21.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [18]:
import pandas as pd
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
import torch
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pickle
import unicodedata
import requests
import json

In [3]:
def cargar_datos():
    """Cargar y preparar los datos de los tres archivos CSV"""
    print("Cargando datos...")
    planes = pd.read_csv('planes_trabajo_procesados.csv')
    biografias = pd.read_csv('biografias_procesadas.csv')
    entrevistas = pd.read_csv('entrevistas_procesadas.csv')

    return planes, biografias, entrevistas

In [4]:
def es_texto_valido(texto):
    """Verifica si el texto es válido para búsqueda"""
    if not isinstance(texto, str):
        return False

    # Eliminar textos muy cortos
    if len(texto.split()) < 5:
        return False

    # Eliminar textos que son solo códigos o referencias
    if re.match(r'^[A-Z0-9\-\.]+$', texto.strip()):
        return False

    return True

In [5]:
def preparar_texto_busqueda(texto):
    """Prepara el texto para búsqueda"""
    if not isinstance(texto, str):
        return ""
    palabras = texto.lower().split()
    if len(palabras) > 3:
        return texto
    return ""

In [6]:
def encontrar_contexto(df, idx, window=2):
    """Encuentra oraciones de contexto alrededor de un índice"""
    start_idx = max(0, idx - window)
    end_idx = min(len(df), idx + window + 1)

    contexto = []
    for i in range(start_idx, end_idx):
        if i == idx:
            contexto.append(f"[RELEVANTE] {df.iloc[i]['oracion_original']}")
        else:
            contexto.append(df.iloc[i]['oracion_original'])

    return " ".join(contexto)

In [7]:
def crear_sistema_busqueda():
    """Crea el sistema de búsqueda mejorado"""
    planes, biografias, entrevistas = cargar_datos()

    # Preparar datos
    textos_validos = []
    metadata = []

    # Procesar planes de trabajo (peso más alto)
    for idx, row in planes.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'plan',
                'peso': 1.2,  # Mayor peso para planes
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(planes, idx),
                'id_oracion': row['id_oracion']
            })

    # Procesar entrevistas
    for idx, row in entrevistas.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'entrevista',
                'peso': 1.1,  # Peso medio para entrevistas
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'numero_entrevista': row['numero_entrevista'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(entrevistas, idx),
                'descripcion': row['descripcion_original'],
                'tema': row['tema_original'],
                'id_oracion': row['id_oracion']
            })

    # Procesar biografías (peso más bajo)
    for idx, row in biografias.iterrows():
        if es_texto_valido(row['oracion_limpia']):
            textos_validos.append(row['oracion_limpia'])
            metadata.append({
                'tipo': 'biografia',
                'peso': 1.0,  # Peso base para biografías
                'lista': row['Lista'],
                'partido': row['Partido'],
                'presidente': row['Presidente'],
                'vicepresidente': row['Vicepresidente'],
                'texto_original': row['oracion_original'],
                'texto_contexto': encontrar_contexto(biografias, idx),
                'id_oracion': row['id_oracion']
            })

    print(f"Total de textos válidos procesados: {len(textos_validos)}")

    # Crear vectorizador TF-IDF para pre-filtrado
    print("Creando vectorizador TF-IDF...")
    vectorizer = TfidfVectorizer(min_df=2, ngram_range=(1, 2))
    tfidf_matrix = vectorizer.fit_transform(textos_validos)

    # Crear modelo de embeddings
    print("Generando embeddings...")
    model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
    embeddings = model.encode(textos_validos, batch_size=32, show_progress_bar=True)

    # Crear índice FAISS
    print("Creando índice FAISS...")
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings.astype('float32'))

    return {
        'index': index,
        'metadata': metadata,
        'model': model,
        'vectorizer': vectorizer,
        'tfidf_matrix': tfidf_matrix,
        'textos_validos': textos_validos
    }

In [8]:
def buscar(query, sistema, k=5, umbral_similitud=0.3):
    """Realiza una búsqueda mejorada"""
    # Pre-filtrado con TF-IDF
    query_vec = sistema['vectorizer'].transform([query])
    similitudes = cosine_similarity(query_vec, sistema['tfidf_matrix']).flatten()

    # Obtener índices de documentos relevantes
    indices_relevantes = np.where(similitudes > umbral_similitud)[0]

    if len(indices_relevantes) == 0:
        return []

    # Generar embedding para la consulta
    query_embedding = sistema['model'].encode([query])

    # Buscar en FAISS
    index_subset = faiss.IndexFlatL2(sistema['index'].d)
    index_subset.add(sistema['index'].get_xb()[indices_relevantes])

    D, I = index_subset.search(query_embedding.astype('float32'), min(k, len(indices_relevantes)))

    # Mapear resultados y aplicar pesos
    resultados = []
    for i, (dist, idx) in enumerate(zip(D[0], I[0])):
        idx_original = indices_relevantes[idx]
        meta = sistema['metadata'][idx_original]

        dist_ajustada = dist / meta['peso']

        resultado = {
            'ranking': i + 1,
            'distancia': dist_ajustada,
            'texto_original': meta['texto_original'],
            'texto_contexto': meta['texto_contexto'],
            'tipo': meta['tipo'],
            'lista': meta['lista'],
            'partido': meta['partido'],
            'presidente': meta['presidente'],
            'id_oracion': meta['id_oracion']
        }

        if meta['tipo'] == 'entrevista':
            resultado.update({
                'numero_entrevista': meta['numero_entrevista'],
                'descripcion': meta['descripcion'],
                'tema': meta['tema']
            })

        resultados.append(resultado)

    return sorted(resultados, key=lambda x: x['distancia'])

In [None]:
# Crear el sistema
print("Creando sistema de búsqueda...")
sistema = crear_sistema_busqueda()

In [None]:
 # Guardar el sistema
print("Guardando sistema en sistema_busqueda.pkl...")
sistema_para_guardar = {
    'index': faiss.serialize_index(sistema['index']),
    'metadata': sistema['metadata'],
    'vectorizer': sistema['vectorizer'],
    'tfidf_matrix': sistema['tfidf_matrix'],
    'textos_validos': sistema['textos_validos']
}

Guardando sistema en sistema_busqueda.pkl...


In [None]:
with open('sistema_busqueda.pkl', 'wb') as f:
        pickle.dump(sistema_para_guardar, f)

print("Sistema guardado exitosamente!")

Sistema guardado exitosamente!


In [None]:
 def realizar_busqueda(query, k=5):
        """Función para realizar búsquedas"""
        print(f"\nBuscando: {query}")
        resultados = buscar(query, sistema, k)

        if not resultados:
            print("No se encontraron resultados relevantes.")
            return

        print("\nResultados encontrados:")
        for r in resultados:
            print(f"\nRanking: {r['ranking']}")
            print(f"Tipo: {r['tipo']}")
            print(f"Lista: {r['lista']} - Partido: {r['partido']}")
            print(f"Presidente: {r['presidente']}")
            print(f"ID: {r['id_oracion']}")
            print("\nContexto:")
            print(r['texto_contexto'])
            print(f"\nDistancia: {r['distancia']:.4f}")

            if r['tipo'] == 'entrevista':
                print(f"\nNúmero de entrevista: {r['numero_entrevista']}")
                print(f"Tema: {r['tema']}")
                print(f"Descripción: {r['descripcion']}")


In [10]:
def cargar_sistema():
    """Carga el sistema de búsqueda guardado"""
    print("Cargando sistema de búsqueda...")
    with open('sistema_busqueda.pkl', 'rb') as f:
        data = pickle.load(f)

    data['index'] = faiss.deserialize_index(data['index'])
    return data

In [11]:
def normalizar_texto(texto):
    """Normaliza el texto: elimina tildes, convierte a minúsculas y elimina caracteres especiales"""
    if not isinstance(texto, str):
        return ""
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar tildes
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto)
                   if unicodedata.category(c) != 'Mn')
    # Eliminar caracteres especiales
    texto = re.sub(r'[^\w\s]', ' ', texto)
    # Eliminar espacios múltiples
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

In [12]:
def es_nombre_presidente(query, presidente):
    """Verifica si la consulta corresponde al nombre del presidente"""
    # Normalizar tanto la consulta como el nombre del presidente
    query_norm = normalizar_texto(query)
    presidente_norm = normalizar_texto(presidente)

    # Obtener palabras normalizadas
    query_words = set(query_norm.split())
    presidente_words = set(presidente_norm.split())

    # Contar palabras coincidentes
    palabras_coincidentes = query_words.intersection(presidente_words)

    # Verificar si el nombre completo está contenido
    if query_norm in presidente_norm or presidente_norm in query_norm:
        return True

    # Verificar coincidencia de palabras individuales
    return len(palabras_coincidentes) >= 2

In [13]:
def calcular_relevancia(query, texto, meta):
    """Calcula un puntaje de relevancia incluyendo peso especial para biografías de presidentes"""
    # Factores de relevancia
    factores = {
        'palabras_clave': 0,
        'exactitud': 0,
        'tipo_doc': 0,
        'posicion': 0,
        'longitud': 0
    }

    # Normalizar textos para comparación
    texto_norm = normalizar_texto(texto)
    query_norm = normalizar_texto(query)
    query_words = set(query_norm.split())

    # Contar palabras clave encontradas
    palabras_encontradas = sum(1 for word in query_words if word in texto_norm)
    factores['palabras_clave'] = palabras_encontradas / len(query_words) if query_words else 0

    # Verificar coincidencia exacta de frases
    if query_norm in texto_norm:
        factores['exactitud'] = 1.0

    # Peso por tipo de documento con ajuste para biografías de presidentes
    pesos_tipo = {
        'plan': 1.3,
        'entrevista': 1.2,
        'biografia': 1.0
    }
    peso_base = pesos_tipo.get(meta['tipo'], 1.0)

    # Ajustar peso si es biografía del presidente buscado
    if meta['tipo'] == 'biografia' and es_nombre_presidente(query, meta['presidente']):
        peso_base *= 2.5  # Aumentar más el peso para biografías del presidente buscado
        factores['exactitud'] = 1.0  # Dar máxima exactitud si coincide el nombre

    factores['tipo_doc'] = peso_base

    # Posición de las palabras clave
    primera_aparicion = min((texto_norm.find(word) for word in query_words
                           if word in texto_norm), default=len(texto_norm))
    factores['posicion'] = 1.0 - (primera_aparicion / len(texto_norm))

    # Penalización por longitud
    palabras_texto = len(texto.split())
    if 10 <= palabras_texto <= 50:
        factores['longitud'] = 1.0
    else:
        factores['longitud'] = 0.8

    # Pesos para cada factor
    pesos = {
        'palabras_clave': 0.35,
        'exactitud': 0.25,
        'tipo_doc': 0.20,
        'posicion': 0.15,
        'longitud': 0.05
    }

    # Calcular puntaje final
    puntaje = sum(factor * pesos[nombre] for nombre, factor in factores.items())
    return puntaje

In [14]:
def buscar(query, k=5, umbral_similitud=0.3):
    """Realiza una búsqueda mejorada con mejor ranking"""
    sistema = cargar_sistema()

    # Pre-filtrado con TF-IDF
    query_vec = sistema['vectorizer'].transform([query])
    similitudes = cosine_similarity(query_vec, sistema['tfidf_matrix']).flatten()
    indices_relevantes = np.where(similitudes > umbral_similitud)[0]

    if len(indices_relevantes) == 0:
        return []

    # Búsqueda semántica con FAISS
    model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
    query_embedding = model.encode([query]).astype('float32')
    D, I = sistema['index'].search(query_embedding, k*2)  # Buscamos más resultados para filtrar

    # Preparar resultados con nuevo sistema de ranking
    resultados = []
    for i, (dist, idx) in enumerate(zip(D[0], I[0])):
        if idx < len(sistema['metadata']):
            meta = sistema['metadata'][idx]

            # Calcular relevancia personalizada
            relevancia = calcular_relevancia(
                query,
                meta['texto_original'],
                meta
            )

            # Ajustar distancia por relevancia
            dist_ajustada = dist / (relevancia + 0.1)  # Evitar división por cero

            resultado = {
                'distancia_original': dist,
                'relevancia': relevancia,
                'distancia_ajustada': dist_ajustada,
                'texto_original': meta['texto_original'],
                'texto_contexto': meta['texto_contexto'],
                'tipo': meta['tipo'],
                'lista': meta['lista'],
                'partido': meta['partido'],
                'presidente': meta['presidente'],
                'id_oracion': meta['id_oracion']
            }

            if meta['tipo'] == 'entrevista':
                resultado.update({
                    'numero_entrevista': meta['numero_entrevista'],
                    'descripcion': meta['descripcion'],
                    'tema': meta['tema']
                })

            resultados.append(resultado)

    # Ordenar por relevancia y distancia ajustada
    resultados = sorted(resultados,
                       key=lambda x: (-x['relevancia'], x['distancia_ajustada']))

    # Tomar los k mejores resultados
    return resultados[:k]

In [15]:
def mostrar_resultados(query, k=5):
    """Muestra los resultados de búsqueda de manera formateada"""
    print(f"\nBuscando: {query}")
    resultados = buscar(query, k)

    if not resultados:
        print("No se encontraron resultados relevantes.")
        return

    print("\nResultados encontrados:")
    for i, r in enumerate(resultados, 1):
        print(f"\nRanking: {i}")
        print(f"Tipo: {r['tipo']}")
        print(f"Lista: {r['lista']} - Partido: {r['partido']}")
        print(f"Presidente: {r['presidente']}")
        print(f"ID: {r['id_oracion']}")
        print(f"Relevancia: {r['relevancia']:.4f}")
        print("\nContexto:")
        print(r['texto_contexto'])

        if r['tipo'] == 'entrevista':
            print(f"\nNúmero de entrevista: {r['numero_entrevista']}")
            print(f"Tema: {r['tema']}")
            print(f"Descripción: {r['descripcion']}")

In [16]:
query = "Daniel Noboa"

In [17]:
mostrar_resultados(query, 5)


Buscando: Daniel Noboa
Cargando sistema de búsqueda...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.13k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]


Resultados encontrados:

Ranking: 1
Tipo: biografia
Lista: 7 - Partido: MOVIMIENTO ACCION DEMOCRATICA NACIONAL, ADN
Presidente: DANIEL NOBOA AZIN
ID: 7_1_1
Relevancia: 1.3000

Contexto:
Su trayectoria incluye ser deportista y presentadora de deportes en televisión, antes de ingresar a la política. Fue asambleísta en tres periodos consecutivos:

2017-2021
2021-2023
2023-2024
Renunció a la Asamblea en 2024 para postularse como candidata a la vicepresidencia junto a Henry Kronfle. [RELEVANTE] Daniel Noboa – Movimiento Acción Democrática Nacional (ADN)
Daniel Noboa
Daniel Noboa Azín, de 36 años, es el actual Presidente de la República del Ecuador y busca la reelección en las elecciones de 2025 bajo el Movimiento Acción Democrática Nacional (ADN). Su incursión en la política comenzó en 2021, cuando fue elegido asambleísta por Santa Elena con el desaparecido partido Ecuatoriano Unido, vinculado a Edwin Moreno, hermano del expresidente Lenín Moreno. Su paso por la Asamblea Nacional (2021-202

# Generación de respuestas

In [19]:
# Patrones de preguntas y sus transformaciones
PATRONES_PREGUNTAS = {
    # Preguntas sobre partidos
    r'que candidato pertenece al partido (.+?)[\s\?]*$': lambda x: f"partido {x.group(1)}",
    r'(.+?) a que partido pertenece': lambda x: f"partido {x.group(1)}",

    # Preguntas sobre entrevistas
    r'que temas se tratan en la entrevista de (.+?)[\s\?]*$': lambda x: f"entrevista {x.group(1)} tema",
    r'(que|qué) (dice|menciona|habla) (.+?) en (su|la) entrevista': lambda x: f"entrevista {x.group(3)}",

    # Preguntas sobre biografías
    r'biografia de (.+?)[\s\?]*$': lambda x: f"biografia {x.group(1)}",
    r'quien es (.+?)[\s\?]*$': lambda x: f"biografia {x.group(1)}",

    # Preguntas sobre propuestas
    r'(que|qué) candidatos? proponen? (.+?)[\s\?]*$': lambda x: x.group(2),
    r'quienes? proponen? (.+?)[\s\?]*$': lambda x: x.group(1)
}

In [20]:
# Frases irrelevantes actualizadas
FRASES_IRRELEVANTES = [
    "que candidatos proponen",
    "qué candidatos proponen",
    "candidatos proponen",
    "qué candidatos plantean",
    "qué candidatos consideran",
    "qué candidatos tienen en su plan",
    "qué candidatos están a favor de",
    "que propone",
    "quién propone",
    "quienes proponen",
    "qué partido propone",
    "qué candidatos impulsan"
]

In [21]:
def procesar_query(query):
    """Procesa la query según el tipo de pregunta"""
    query = query.lower().strip()
    query_procesada = query

    # Buscar patrones y aplicar transformaciones
    for patron, transformacion in PATRONES_PREGUNTAS.items():
        match = re.search(patron, query, re.IGNORECASE)
        if match:
            query_procesada = transformacion(match)
            break

    # Eliminar frases irrelevantes
    for frase in FRASES_IRRELEVANTES:
        query_procesada = query_procesada.replace(frase, "").strip()

    return query_procesada

In [22]:
def generar_prompt_contextualizado(query, documentos):
    """Genera un prompt específico según el tipo de pregunta"""
    tipo_pregunta = "general"

    # Detectar tipo de pregunta
    if any(palabra in query.lower() for palabra in ["partido", "pertenece"]):
        tipo_pregunta = "partido"
    elif "entrevista" in query.lower():
        tipo_pregunta = "entrevista"
    elif any(palabra in query.lower() for palabra in ["biografia", "quien es"]):
        tipo_pregunta = "biografia"

    prompts = {
        "partido": """
            Basándote en la información proporcionada, indica específicamente:
            1. El nombre exacto del partido político
            2. El candidato asociado
            3. Cualquier información adicional relevante sobre esta afiliación política

            Información disponible:
        """,
        "entrevista": """
            A partir de la información de la entrevista, detalla:
            1. Los temas principales tratados
            2. Las propuestas o declaraciones más relevantes
            3. El contexto de la entrevista

            Información de la entrevista:
        """,
        "biografia": """
            Con base en la información biográfica proporcionada, describe:
            1. Quién es el candidato
            2. Su trayectoria y experiencia
            3. Datos relevantes sobre su candidatura

            Información biográfica:
        """,
        "general": """
            Basándote en la información proporcionada, detalla:
            1. Las propuestas específicas de cada candidato
            2. Los detalles concretos mencionados
            3. Las fuentes de esta información

            Información disponible:
        """
    }

    prompt_base = prompts[tipo_pregunta]

    # Agregar información de los documentos
    for doc in documentos:
        prompt_base += f"\n\n{doc['presidente']} ({doc['partido']}):"
        prompt_base += f"\nTipo de fuente: {doc['tipo']}"
        prompt_base += f"\nContenido: {doc['texto_contexto']}"

    return prompt_base

In [23]:
def generar_respuesta_ollama(query, documentos):
    """Genera una respuesta usando Ollama"""
    if not documentos:
        return "No se encontró información relevante para responder esta pregunta."

    prompt = generar_prompt_contextualizado(query, documentos)

    try:
        respuesta = requests.post(
            "http://localhost:11434/api/generate",
            json={
                "model": "mistral",
                "prompt": prompt,
                "stream": False,
                "temperature": 0.3,  # Más bajo para respuestas más precisas
                "top_p": 0.9
            }
        )
        respuesta.raise_for_status()
        return respuesta.json().get("response", "No se pudo generar una respuesta.")

    except Exception as e:
        return f"Error al generar la respuesta: {e}"

In [24]:
def buscar_y_generar_respuesta(query, k=5):
    """Proceso principal de búsqueda y generación de respuesta"""
    query_procesada = procesar_query(query)
    print(f"🔍 Búsqueda procesada: {query_procesada}")

    if not query_procesada:
        return "No se pudo procesar la pregunta adecuadamente."

    documentos = buscar(query_procesada, k)

    if not documentos:
        return "No se encontró información relevante para esta pregunta."

    respuesta = generar_respuesta_ollama(query, documentos)
    return respuesta

In [28]:
query = "Hola"
k = 5

In [29]:
respuesta = buscar_y_generar_respuesta(query, k)
print("\n📢 Respuesta:")
print(respuesta)

🔍 Búsqueda procesada: hola
Cargando sistema de búsqueda...

📢 Respuesta:
No se encontró información relevante para esta pregunta.


In [None]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 🔹 Cargar el modelo de embeddings
modelo_embeddings = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

# 🔹 Ground Truth basado en textos de referencia más completos
ground_truth = {
    "reducción de impuestos": [
        "Propuestas de reducción de impuestos, reforma fiscal, eliminación de tributos innecesarios.",
        "Cómo mejorar la economía bajando los impuestos y ayudando a los contribuyentes."
    ],
    "seguridad ciudadana": [
        "Propuestas para mejorar la seguridad en el país, reducir la delincuencia y fortalecer la policía.",
        "Planes para combatir el crimen organizado y mejorar la protección ciudadana."
    ],
    "educación pública": [
        "Mejoras en la educación pública, acceso a la educación gratuita y reforma educativa.",
        "Planes para fortalecer el sistema educativo y garantizar educación de calidad."
    ],
    "empleo juvenil": [
        "Programas para fomentar el empleo juvenil, subsidios para jóvenes trabajadores.",
        "Propuestas para mejorar las oportunidades laborales para jóvenes."
    ],
    "cambio climático": [
        "Iniciativas para combatir el cambio climático, energías renovables y sostenibilidad.",
        "Planes para la protección del medio ambiente y políticas ecológicas."
    ]
}

In [None]:
def evaluar_sistema_embeddings(queries, k=5):
    """Evalúa la eficacia del sistema usando embeddings de similitud semántica."""
    sistema = cargar_sistema()

    precision_scores = []
    recall_scores = []
    f1_scores = []

    for query in queries:
        print(f"\n🔎 Evaluando query: {query}")

        # Obtener los embeddings del ground truth de la consulta
        embeddings_gt = modelo_embeddings.encode(ground_truth[query])

        # Obtener resultados del sistema
        resultados = buscar(query, k)
        textos_obtenidos = [res['texto_original'] for res in resultados]

        # Si no hay resultados, precisión y recall son 0
        if not textos_obtenidos:
            print("❌ No se encontraron resultados.")
            precision_scores.append(0)
            recall_scores.append(0)
            f1_scores.append(0)
            continue

        # Obtener los embeddings de los textos obtenidos
        embeddings_resultados = modelo_embeddings.encode(textos_obtenidos)

        # Calcular similitudes entre cada resultado y el ground truth
        similitudes = cosine_similarity(embeddings_resultados, embeddings_gt)

        # Se considera relevante un documento si su similitud con algún texto del ground truth es mayor a 0.7
        y_true = [1 if np.max(similitud) > 0.7 else 0 for similitud in similitudes]
        y_pred = [1] * len(textos_obtenidos)

        # Mostrar resultados obtenidos y su similitud
        print("\n📌 **Documentos obtenidos y similitud:**")
        for i, (texto, similitud) in enumerate(zip(textos_obtenidos, similitudes)):
            max_sim = np.max(similitud)
            relevancia = "✅ Relevante" if max_sim > 0.7 else "❌ No relevante"
            print(f"{i+1}. {texto[:150]}... ({relevancia} - Similitud: {max_sim:.2f})")

        # Calcular métricas
        if sum(y_true) > 0:
            precision = precision_score(y_true, y_pred, zero_division=1)
            recall = recall_score(y_true, y_pred, zero_division=1)
            f1 = f1_score(y_true, y_pred, zero_division=1)
        else:
            precision, recall, f1 = 0, 0, 0  # Si no hay coincidencias, la métrica se mantiene en 0

        precision_scores.append(precision)
        recall_scores.append(recall)
        f1_scores.append(f1)

        print(f"\n✅ Precision@{k}: {precision:.4f}")
        print(f"✅ Recall@{k}: {recall:.4f}")
        print(f"✅ F1-Score@{k}: {f1:.4f}")

    # 🔹 Promediar métricas
    avg_precision = np.mean(precision_scores)
    avg_recall = np.mean(recall_scores)
    avg_f1 = np.mean(f1_scores)

    print("\n📊 **Resultados Promedio**")
    print(f"📌 Precision@{k}: {avg_precision:.4f}")
    print(f"📌 Recall@{k}: {avg_recall:.4f}")
    print(f"📌 F1-Score@{k}: {avg_f1:.4f}")


In [None]:
# 🔎 Ejecutar la evaluación con embeddings
queries_de_prueba = ["reducción de impuestos", "seguridad ciudadana", "educación pública", "empleo juvenil", "cambio climático"]
evaluar_sistema_embeddings(queries_de_prueba, k=5)

Cargando sistema de búsqueda...

🔎 Evaluando query: reducción de impuestos
Cargando sistema de búsqueda...
QUERY: reduccion de impuestos - PRESIDENTE: andrea gonzalez - MATCH: 0.00
QUERY: reduccion de impuestos - PRESIDENTE: juan ivan cueva - MATCH: 0.00
QUERY: reduccion de impuestos - PRESIDENTE: pedro granja - MATCH: 0.00

🔝 Ranking final de los resultados:
🔍 ANDREA GONZALEZ - TIPO: entrevista - RELEVANCIA: 0.8808 - DISTANCIA: 1.8893
🔍 ANDREA GONZALEZ - TIPO: biografia - RELEVANCIA: 0.8429 - DISTANCIA: 0.8857
🔍 ANDREA GONZALEZ - TIPO: plan - RELEVANCIA: 0.6211 - DISTANCIA: 4.2237
🔍 FRANCESCO TABACCHI - TIPO: plan - RELEVANCIA: 0.5217 - DISTANCIA: 5.4659
🔍 HENRY KRONFLE KOZHAYA - TIPO: plan - RELEVANCIA: 0.5156 - DISTANCIA: 4.8419

📌 **Documentos obtenidos y similitud:**
1. Sobre la economía y la reducción de impuestos
Ha propuesto reducir impuestos como el ISD.... (✅ Relevante - Similitud: 0.85)
2. Economía: Reducción de impuestos especiales.... (✅ Relevante - Similitud: 0.84)
3. Dis

NameError: name 'precision_score' is not defined

In [None]:
pip install transformers



In [None]:
pip install torch

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch)
  Downloading nvidia_curand_cu12-10.3.5