In [None]:
import os
import json
import numpy as np
from sentence_transformers import SentenceTransformer
from scipy.spatial.distance import cosine

# Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Umbral recomendado para filtrar resultados
# üìå Basado en experiencias con b√∫squedas sem√°nticas en embeddings, estos son los rangos recomendados para establecer un umbral de corte:

# Distancia Coseno	Significado	Acci√≥n Recomendada
# 0.0 - 0.25	Respuesta muy relevante	‚úÖ Considerar directamente como una respuesta v√°lida
# 0.25 - 0.40	Respuesta posible, pero revisar	‚ö†Ô∏è Puede contener informaci√≥n relevante, pero verificar manualmente
# 0.40 - 0.60	Informaci√≥n posiblemente √∫til, pero ambigua	‚ùå Filtrar en caso de que no haya suficiente informaci√≥n relevante
# > 0.60	No es una respuesta relevante	‚ùå No considerar como respuesta
# üìå RECOMENDACI√ìN:

# Usar un umbral de 0.35 - 0.40 como corte inicial.
# Si no se encuentran suficientes documentos relevantes, aumentar el umbral gradualmente (0.45).
# Si el sistema detecta demasiados documentos irrelevantes, reducir el umbral (0.30).

# Par√°metros de filtrado
UMBRAL_BASE = 0.40  # Umbral inicial
UMBRAL_MAXIMO = 0.45  # Umbral m√°ximo en caso de pocos resultados
MIN_DOCUMENTOS_RELEVANTES = 1  # M√≠nimo de documentos para considerar la respuesta v√°lida

def cargar_embeddings_desde_archivo(ruta_archivo):
    """Carga los embeddings desde un archivo JSON."""
    with open(ruta_archivo, "r", encoding="utf-8") as f:
        data = json.load(f)
    return data["archivo"], data["secciones"]

def calcular_similitud(embedding1, embedding2):
    """Calcula la similitud mediante la distancia del coseno."""
    return cosine(embedding1, embedding2)

def buscar_documentos_similares(texto, carpeta_embeddings):
    """
    Busca documentos en una carpeta que sean m√°s similares al texto de entrada.
    Retorna una lista de tuplas con el nombre del archivo, la menor distancia y el p√°rrafo m√°s similar.
    """
    embedding_texto = embedding_model.encode(texto)
    resultados = {}

    # Recorrer archivos en la carpeta
    for archivo in os.listdir(carpeta_embeddings):
        if archivo.endswith("_embeddings.json"):
            ruta_archivo = os.path.join(carpeta_embeddings, archivo)
            nombre_archivo, secciones = cargar_embeddings_desde_archivo(ruta_archivo)

            # Inicializar menor distancia
            menor_distancia = float("inf")
            parrafo_mas_similar = ""

            for seccion in secciones:
                embedding_parrafo = np.array(seccion["embedding"])
                distancia = calcular_similitud(embedding_texto, embedding_parrafo)

                if distancia < menor_distancia:
                    menor_distancia = distancia
                    parrafo_mas_similar = seccion["texto"]

            resultados[nombre_archivo] = (menor_distancia, parrafo_mas_similar)

    # Ordenar por menor distancia
    resultados_ordenados = sorted(resultados.items(), key=lambda x: x[1][0])

    # Filtrar documentos por umbral de similitud
    umbral_actual = UMBRAL_BASE
    documentos_relevantes = [(archivo, distancia, parrafo) for archivo, (distancia, parrafo) in resultados_ordenados if distancia <= umbral_actual]

    # Si no hay suficientes documentos, ampliar el umbral
    if len(documentos_relevantes) < MIN_DOCUMENTOS_RELEVANTES:
        umbral_actual = UMBRAL_MAXIMO
        documentos_relevantes = [(archivo, distancia, parrafo) for archivo, (distancia, parrafo) in resultados_ordenados if distancia <= umbral_actual]

    # Si sigue sin haber suficientes documentos relevantes, descartar la b√∫squeda
    if len(documentos_relevantes) < MIN_DOCUMENTOS_RELEVANTES:
        return []

    return documentos_relevantes

# Ejemplo de uso
carpeta_embeddings = "data"
texto_busqueda = "The cause of food insecurity in Burkina Faso is linked with several factors in addition to drought"

resultados = buscar_documentos_similares(texto_busqueda, carpeta_embeddings)

# Mostrar resultados
if resultados:
    print("\nüîπ Documentos relevantes encontrados:")
    for archivo, distancia, parrafo in resultados:
        print(f"\nüìÑ {archivo} - Distancia: {distancia:.4f}")
        print(f"üìù P√°rrafo m√°s similar: {parrafo[:300]}...")  # Mostrar los primeros 300 caracteres
else:
    print("\n‚ö†Ô∏è No se encontr√≥ una respuesta clara en los documentos.")





üîπ Documentos relevantes encontrados:

üìÑ 1e8c2332a461a3a142840fa477fa907c66c35dac - Distancia: 0.1083
üìù P√°rrafo m√°s similar: Effectiveness: Focus on Drought
The cause of food insecurity in Burkina Faso is linked with several factors in addition to drought,
including conflict, agricultural practice, supply chain disruptions and food prices.
‚óè Recommendation: Better justify the selection of rainfall as the sole trigger and ...
