In [1]:
# ------------------------------------------------------------
# Configuración Inicial del Entorno
# ------------------------------------------------------------
import sys
import os
import pprint
import torch
import pandas as pd

# Ruta base del proyecto (sube un nivel desde el directorio actual)
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), ".."))
SRC_PATH = os.path.join(BASE_DIR, "src")

# Verificar si `src` está en sys.path, si no, agregarlo
if SRC_PATH not in sys.path:
    sys.path.append(SRC_PATH)
    print(f"'src' agregado a sys.path: {SRC_PATH}")

# Verificar que la carpeta `loaders` exista dentro de `src`
loaders_path = os.path.join(SRC_PATH, "loaders")
if not os.path.exists(loaders_path):
    raise FileNotFoundError(f"No se encontró la carpeta 'loaders' en {SRC_PATH}. Verifica la estructura del proyecto.")

'src' agregado a sys.path: g:\Mi unidad\EnorChile\GIT\practicos-rag\src


In [2]:
# ------------------------------------------------------------
# Importar módulos necesarios
# ------------------------------------------------------------
try:
    from loaders.pdf_processor import process_pdf_directly
    from loaders.table_review import process_and_review_tables
    from loaders.pdf_inspector import inspect_pdf_content
    print("Módulos importados correctamente.")
except ModuleNotFoundError as e:
    print(f"Error al importar módulos: {e}")
    print("--- Rutas actuales en sys.path ---")
    for path in sys.path:
        print(path)
    raise

Módulos importados correctamente.


In [3]:
import importlib.util

# Cargar el módulo `reranking` manualmente
reranking_path = os.path.join(SRC_PATH, "retrievers", "reranking.py")
spec = importlib.util.spec_from_file_location("retrievers.reranking", reranking_path)
reranking = importlib.util.module_from_spec(spec)
spec.loader.exec_module(reranking)

# Cargar el módulo `hybrid_search` manualmente
hybrid_search_path = os.path.join(SRC_PATH, "retrievers", "hybrid_search.py")
spec = importlib.util.spec_from_file_location("retrievers.hybrid_search", hybrid_search_path)
hybrid_search = importlib.util.module_from_spec(spec)
spec.loader.exec_module(hybrid_search)

# Asignar funciones y modelos a variables
embedding_model = reranking.embedding_model
generate_keywords_with_t5 = reranking.generate_keywords_with_t5
expand_keywords_with_similarity = reranking.expand_keywords_with_similarity
hybrid_reranking = hybrid_search.hybrid_reranking

print("Importaciones manuales de `retrievers` completadas.")



Importaciones manuales de `retrievers` completadas.


In [4]:
# ------------------------------------------------------------
# Conectar a Qdrant
# ------------------------------------------------------------
from dotenv import load_dotenv
import os
from qdrant_client import QdrantClient

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Leer las variables desde .env
QDRANT_URL = os.getenv("QDRANT_URL")
QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
INDEX_NAME = "embeddings-version-2"

# Validar que las variables se cargaron correctamente
if not QDRANT_URL or not QDRANT_API_KEY:
    raise ValueError("Las variables QDRANT_URL o QDRANT_API_KEY no están configuradas correctamente en el archivo .env")

print("Conectando a Qdrant...")
qdrant_client = QdrantClient(url=QDRANT_URL, api_key=QDRANT_API_KEY)
print("Conexión a Qdrant establecida con éxito.")

Conectando a Qdrant...
Conexión a Qdrant establecida con éxito.


# Preprocessing

In [None]:
# ------------------------------------------------------------
# Configurar las rutas de trabajo y mostrar detalles de los PDFs
# ------------------------------------------------------------
import pdfplumber

print("\n--- Configurando las rutas de trabajo ---")
CAPITULOS_DIR = os.path.join(BASE_DIR, "data/capitulos")
if not os.path.exists(CAPITULOS_DIR):
    raise FileNotFoundError(f"No se encontró el directorio 'data/capitulos' en {BASE_DIR}.")

# Obtener todos los PDFs en el directorio
pdf_paths = [
    os.path.join(CAPITULOS_DIR, file)
    for file in os.listdir(CAPITULOS_DIR)
    if file.endswith(".pdf")
]

# Mostrar resumen inicial de los archivos PDF y su cantidad de páginas
print(f"\n--- {len(pdf_paths)} PDFs encontrados en '{CAPITULOS_DIR}' ---")
for idx, pdf_path in enumerate(pdf_paths, start=1):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            page_count = len(pdf.pages)
            print(f"{idx}. {os.path.basename(pdf_path)} - {page_count} páginas")
    except Exception as e:
        print(f"{idx}. {os.path.basename(pdf_path)} - Error al contar páginas: {e}")

In [None]:
# ------------------------------------------------------------
# Procesar PDFs directamente
# ------------------------------------------------------------
print("\n--- Procesando TODOS los PDFs en el directorio ---")
results = process_pdf_directly(pdf_paths)

# Mostrar resultados del procesamiento
print("\n--- Resumen del procesamiento ---")
for pdf, data in results.items():
    print(f"{os.path.basename(pdf)}: {data['total_paginas']} páginas, {data['total_bloques']} bloques de texto, {data['total_tablas']} tablas.")

In [None]:
# ------------------------------------------------------------
# Revisar tablas en documentos seleccionados y limitar cantidad
# ------------------------------------------------------------

# Lista de documentos a revisar y el número máximo de tablas por documento
documents_to_review = {
    "capitulo7.pdf": 3,  # Revisar hasta 3 tablas del documento capitulo7.pdf
    "capitulo14.pdf": 3,  # Revisar hasta 3 tablas del documento capitulo14.pdf
    "capitulo19.pdf": 3,  # Revisar hasta 3 tablas del documento capitulo19.pdf
    "capitulo22.pdf": 2,  # Revisar hasta 2 tablas del documento capitulo22.pdf
}

print("\n--- Revisando tablas en los documentos seleccionados ---")

# Iterar sobre cada documento y su límite de tablas
for pdf_name, max_tables in documents_to_review.items():
    # Construir la ruta completa del documento
    pdf_file = os.path.join(CAPITULOS_DIR, pdf_name)
    
    # Verificar si el archivo existe
    if not os.path.exists(pdf_file):
        print(f"Archivo no encontrado: {pdf_name}, saltando...")
        continue

    print(f"\nRevisando tablas en {pdf_name} (límite: {max_tables} tablas)")

    try:
        # Llamar a la función con el límite de tablas especificado
        tables = process_and_review_tables(pdf_file, max_tables=max_tables)
        
        # Mostrar el resultado del procesamiento
        print(f"Se procesaron {len(tables)} tablas en {pdf_name} (límite era {max_tables})")
    except Exception as e:
        # Capturar y mostrar cualquier error
        print(f"Error al procesar {pdf_name}: {e}")
    
    print("\n" + "="*80 + "\n")

In [None]:
# ------------------------------------------------------------
# Inspeccionar contenido de los PDFs con un límite de caracteres
# ------------------------------------------------------------
print("\n--- Inspeccionando contenido de los PDFs con límite de caracteres ---")
inspect_pdf_content(CAPITULOS_DIR, pdf_paths, num_pages_limit=5, char_limit=500)

In [None]:
from loaders.metadata_processor import process_pdfs_with_validated_metadata

# ------------------------------------------------------------
# Procesar los PDFs y generar datos enriquecidos
# ------------------------------------------------------------
print("\n--- Procesando PDFs y generando datos enriquecidos ---")
data_enriched = process_pdfs_with_validated_metadata(pdf_paths, verbose=False)

In [None]:
# ------------------------------------------------------------
# Mostrar Resumen Global
# ------------------------------------------------------------
def mostrar_resumen_global(data_enriched, max_pdfs=5):
    """
    Muestra un resumen global del procesamiento de PDFs.

    Args:
        data_enriched (dict): Datos procesados enriquecidos.
        max_pdfs (int): Número máximo de PDFs a mostrar en el resumen.
    """
    print("\n--- Resumen Global del Procesamiento ---")
    for idx, (pdf_path, pdf_data) in enumerate(data_enriched.items(), start=1):
        total_paginas = len(pdf_data.get('paginas', []))
        total_capitulos = sum(
            1 for p in pdf_data['paginas'] for c in p['contenido']
            if c['tipo'] == 'texto' and 'CAPÍTULO' in c['texto']
        )
        total_tablas = sum(
            1 for p in pdf_data['paginas'] for c in p['contenido']
            if c['tipo'] == 'tabla'
        )

        print(f"\nArchivo {idx}: {os.path.basename(pdf_path)}")
        print(f"  Total de páginas procesadas: {total_paginas}")
        print(f"  Total de capítulos detectados: {total_capitulos}")
        print(f"  Total de tablas detectadas: {total_tablas}")

        if idx >= max_pdfs:
            print("... (se han procesado más archivos, pero se limitan los resultados mostrados)")
            break


# Llama a la función con un límite de 5 PDFs para mostrar
mostrar_resumen_global(data_enriched, max_pdfs=5)

In [None]:
from loaders.metadata_verification import verificar_metadatos_guardados

# ------------------------------------------------------------
# Verificar metadatos guardados con límites
# ------------------------------------------------------------
print("\n--- Verificando Metadatos Guardados ---")
verificar_metadatos_guardados(data_enriched, max_files=3, max_pages=2, max_blocks=5)

In [None]:
# ------------------------------------------------------------
# Importar módulos necesarios
# ------------------------------------------------------------
from loaders.review_tools import revisar_estructuras_generadas, revisar_paginas_especificas

# ------------------------------------------------------------
# Revisar ejemplos de estructuras generadas
# ------------------------------------------------------------
print("\n--- Revisando ejemplos de estructuras generadas ---")
revisar_estructuras_generadas(data_enriched, num_ejemplos=3)

In [None]:
# ------------------------------------------------------------
# Revisar páginas específicas
# ------------------------------------------------------------
print("\n--- Revisando páginas específicas del archivo seleccionado ---")
revisar_paginas_especificas(data_enriched, "capitulo13", paginas_deseadas=list(range(6, 11)))

# Chunking

In [13]:
# ------------------------------------------------------------
# Importar módulos necesarios
# ------------------------------------------------------------
from chunking.separated_chunker import chunk_documents_separately
from chunking.chunk_verifier import verificar_chunks_narrativos_completos, verificar_chunks_tablas_completos
from chunking.chunk_analysis import analizar_chunks_narrativos, analizar_chunks_tablas, calcular_estadisticas_chunks_por_capitulo

In [None]:
# ------------------------------------------------------------
# Validación de Datos Enriquecidos
# ------------------------------------------------------------
print("\n--- Verificando Datos Enriquecidos ---")
print(f"Total de archivos procesados: {len(data_enriched)}")
for archivo, contenido in data_enriched.items():
    print(f"Archivo: {archivo}, Total de páginas: {len(contenido['paginas'])}")

In [None]:
# ------------------------------------------------------------
# Generar Chunks Separados
# ------------------------------------------------------------
print("\n--- Generando Chunks Narrativos y de Tablas ---")
chunks_narrativos, chunks_tablas = chunk_documents_separately(data_enriched, chunk_size=3000)

# Verificar resultados
print(f"Total de chunks narrativos: {len(chunks_narrativos)}")
print(f"Total de chunks de tablas: {len(chunks_tablas)}")

In [None]:
# ------------------------------------------------------------
# Verificar Ejemplos de Chunks
# ------------------------------------------------------------
verificar_chunks_narrativos_completos(chunks_narrativos, num_chunks=3)
verificar_chunks_tablas_completos(chunks_tablas, num_chunks=3)

In [None]:
# ------------------------------------------------------------
# Analizar Estadísticas Generales de los Chunks
# ------------------------------------------------------------
print("\n--- Analizando Estadísticas de los Chunks Narrativos ---")
estadisticas_narrativos = analizar_chunks_narrativos(chunks_narrativos)
print(f"  Total de chunks: {estadisticas_narrativos['total_chunks']}")
print(f"  Total de caracteres: {estadisticas_narrativos['total_caracteres']}")
print(f"  Promedio de caracteres por chunk: {estadisticas_narrativos['promedio_caracteres']:.2f}")

print("\n--- Analizando Estadísticas de los Chunks de Tablas ---")
estadisticas_tablas = analizar_chunks_tablas(chunks_tablas)
print(f"  Total de chunks de tablas: {estadisticas_tablas['total_chunks']}")
print(f"  Total de filas: {estadisticas_tablas['total_filas']}")
print(f"  Promedio de filas por tabla: {estadisticas_tablas['promedio_filas']:.2f}")
print(f"  Promedio de columnas por tabla: {estadisticas_tablas['promedio_columnas']:.2f}")

In [None]:
import matplotlib.pyplot as plt

# ------------------------------------------------------------
# Histograma para Chunks Narrativos (Tamaño en Caracteres)
# ------------------------------------------------------------
def generar_histograma_narrativos(chunks_narrativos):
    tamaños = [len(chunk["texto"]) for chunk in chunks_narrativos]

    plt.figure(figsize=(10, 6))
    plt.hist(tamaños, bins=30, edgecolor='black', alpha=0.7)
    plt.title("Distribución del Tamaño de Chunks Narrativos")
    plt.xlabel("Tamaño del Chunk (caracteres)")
    plt.ylabel("Cantidad de Chunks")
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

# ------------------------------------------------------------
# Histograma para Chunks de Tablas (Filas y Columnas)
# ------------------------------------------------------------
def generar_histograma_tablas(chunks_tablas):
    filas = [chunk["metadatos"]["filas"] for chunk in chunks_tablas]
    columnas = [chunk["metadatos"]["columnas"] for chunk in chunks_tablas]

    # Histograma de Filas
    plt.figure(figsize=(10, 6))
    plt.hist(filas, bins=20, color='orange', edgecolor='black', alpha=0.7)
    plt.title("Distribución del Número de Filas en Tablas")
    plt.xlabel("Cantidad de Filas por Tabla")
    plt.ylabel("Cantidad de Tablas")
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

    # Histograma de Columnas
    plt.figure(figsize=(10, 6))
    plt.hist(columnas, bins=20, color='green', edgecolor='black', alpha=0.7)
    plt.title("Distribución del Número de Columnas en Tablas")
    plt.xlabel("Cantidad de Columnas por Tabla")
    plt.ylabel("Cantidad de Tablas")
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

# ------------------------------------------------------------
# Generar Histogramas
# ------------------------------------------------------------
print("\n--- Generando Histogramas para Chunks Narrativos ---")
generar_histograma_narrativos(chunks_narrativos)

print("\n--- Generando Histogramas para Chunks de Tablas ---")
generar_histograma_tablas(chunks_tablas)

# Embeddings

In [None]:
# Importar dependencias
from embedding.embedding_v2 import generate_embeddings_v2
from vector_store_client.vector_store_client_v2 import insert_embeddings_v2
from qdrant_client import QdrantClient
from tqdm import tqdm

In [None]:
# ------------------------------------------------------------
# Preparar los Chunks para Generar Embeddings
# ------------------------------------------------------------
# Combinar todos los chunks narrativos y de tablas en un solo formato estándar
all_chunks = []

for chunk in chunks_narrativos:
    all_chunks.append({
        "type": "narrative",
        "content": chunk["texto"],
        "metadata": chunk["metadatos"]
    })

for chunk in chunks_tablas:
    tabla_contenido = "\n".join(["\t".join(map(str, row)) for row in chunk["tabla"]])
    all_chunks.append({
        "type": "table",
        "content": tabla_contenido,
        "metadata": chunk["metadatos"]
    })

print(f"Total de chunks preparados para embeddings: {len(all_chunks)}")

In [None]:
# ------------------------------------------------------------
# Generar Embeddings y Metadatos
# ------------------------------------------------------------
from embedding.embedding_v2 import generate_embeddings_v2

all_embeddings = generate_embeddings_v2(all_chunks)
print(f"Total de embeddings generados: {len(all_embeddings)}")

In [None]:
# Separar embeddings y metadatos en listas separadas
embeddings_list = []
metadata_list = []

# Generar embeddings y metadatos con validaciones
for idx, entry in enumerate(all_embeddings):
    try:
        # Validar estructura esperada
        if "vector" in entry and "default" in entry["vector"]:
            embedding = entry["vector"]["default"]
        else:
            raise KeyError(f"Claves faltantes en vector en índice {idx}: {entry}")

        if "payload" in entry:
            payload = entry["payload"]
        else:
            raise KeyError(f"Clave 'payload' faltante en índice {idx}: {entry}")

        # Validar longitud del embedding
        if len(embedding) != 384:
            raise ValueError(f"Embedding en índice {idx} tiene tamaño incorrecto: {len(embedding)}")

        # Agregar a las listas
        embeddings_list.append(embedding)
        metadata_list.append(payload)
    except KeyError as e:
        print(f"Error procesando embedding en el índice {idx}: {e}")
    except Exception as e:
        print(f"Error inesperado en el índice {idx}: {e}")

# Validar resultados
print(f"Total embeddings después del bucle: {len(embeddings_list)}")
print(f"Ejemplo de embedding: {embeddings_list[0] if embeddings_list else 'Ninguno'}")
print(f"Total metadatos después del bucle: {len(metadata_list)}")
print(f"Ejemplo de metadata: {metadata_list[0] if metadata_list else 'Ninguno'}")

In [None]:
print(f"embeddings_list: {len(embeddings_list) if embeddings_list else 'None'}")
print(f"metadata_list: {len(metadata_list) if metadata_list else 'None'}")

In [24]:
if any(len(embedding) != 384 for embedding in embeddings_list):
    print("Error: Algunos embeddings no tienen la dimensión adecuada.")

if any(not isinstance(metadata, dict) for metadata in metadata_list):
    print("Error: Algunos metadatos no tienen el formato adecuado.")

In [None]:
print("Ejemplo de embedding:", embeddings_list[0])
print("Ejemplo de metadato:", metadata_list[0])

In [None]:
# Verificar detalles de la colección
collection_info = qdrant_client.get_collection(INDEX_NAME)
print(collection_info)

In [None]:
for idx, (embedding, metadata) in enumerate(zip(embeddings_list, metadata_list)):
    point = {
        "id": idx,
        "vector": {"default": embedding},  # Clave 'default' requerida por Qdrant
        "payload": metadata
    }
    print(f"Punto {idx}: {point}")
    if idx == 0:  # Ver solo el primer punto para simplificar
        break

In [None]:
test_point = {
    "id": 1,
    "vector": {"default": embeddings_list[0]},  # Embedding bajo el nombre 'default'
    "payload": metadata_list[0]
}

response = qdrant_client.upsert(
    collection_name="embeddings-version-2",  # Nombre correcto de la colección
    points=[test_point]
)

print("Respuesta de inserción manual:", response)

In [None]:
print(type(embeddings_list[0]))
print(len(embeddings_list[0]))

In [None]:
batch = [
    {
        "id": i,
        "vector": {"default": embeddings_list[i]},
        "payload": metadata_list[i]
    }
    for i in range(10)  # Prueba con los primeros 10 puntos
]

response = qdrant_client.upsert(
    collection_name="embeddings-version-2",
    points=batch
)
print("Respuesta de inserción de lote pequeño:", response)

In [None]:
# Verificar datos antes de insertar
if embeddings_list and metadata_list:
    print(f"Ejemplo de embedding: {embeddings_list[0][:5]}... (Tamaño: {len(embeddings_list[0])})")
    print(f"Ejemplo de payload: {metadata_list[0]}")

    print(f"Insertando {len(embeddings_list)} embeddings en la colección 'embeddings-version-2' en lotes de 100...")
    insert_embeddings_v2(
        client=qdrant_client,
        index_name="embeddings-version-2",
        embeddings=embeddings_list,
        metadata_list=metadata_list,
        batch_size=100
    )
    print("Embeddings generados e insertados en Qdrant con éxito.")
else:
    print("No hay embeddings o metadatos para insertar.")

In [None]:
# ------------------------------------------------------------
# Validar Resultados
# ------------------------------------------------------------
print("\n--- Validación de Embeddings ---")
if all_embeddings:
    num_valid_embeddings = len(embeddings_list)
    print(f"Embeddings válidos: {num_valid_embeddings}/{len(all_chunks)}")
    print("Ejemplo de embedding:")
    print(f"Tipo: {metadata_list[0]['type']}")
    print(f"Contenido: {metadata_list[0]['content'][:100]}...")
    print(f"Embedding: {embeddings_list[0][:5]}...")  # Mostrar primeros valores
else:
    print("No se generaron embeddings.")

# Retrieval

In [5]:
from embedding.embedding_v2 import generate_query_embedding,generate_query_embedding_openai
from vector_store_client.vector_store_search import search_embeddings, format_search_results
from vector_store_client.vector_store_client import search_qdrant

# ------------------------------------------------------------
# Definir la consulta y generar su embedding
# ------------------------------------------------------------

def embed_and_search(query, coleccion, limit=5, embedding="qdrant"):
    # Generar embedding para la consulta
    try:
        if embedding == "openai":
            query_embedding = generate_query_embedding_openai(query)
            if not isinstance(query_embedding, list) or len(query_embedding) != 1536:
                raise ValueError("El embedding de la consulta no tiene el formato esperado (lista con 1536 dimensiones).")
        elif embedding == "qdrant":
            query_embedding = generate_query_embedding(query)
            if not isinstance(query_embedding, list) or len(query_embedding) != 384:
                raise ValueError("El embedding de la consulta no tiene el formato esperado (lista con 384 dimensiones).")
        else:
            raise("Select embeeding openai or qdrant")

        # Validar el formato del embedding generado
        
    except Exception as e:
        print(f"Error al generar el embedding de la consulta: {e}")
        raise

    # ------------------------------------------------------------
    # Realizar la búsqueda en Qdrant
    # ------------------------------------------------------------
    index_name = coleccion  # Nombre de la colección en Qdrant

    try:
        results = search_qdrant(qdrant_client, index_name, query_embedding, limit=limit)
    except Exception as e:
        print(f"Error al realizar la búsqueda en Qdrant: {e}")
        results = []

    return results
    
    
query = "¿Qué se entiende por cerveza?"

results = embed_and_search(query,"openai-750-overlap",limit=5, embedding="openai")

Modelo 'all-MiniLM-L6-v2' cargado correctamente.
Cargando el módulo 'embedding'
Modelo 'all-MiniLM-L6-v2' cargado correctamente.
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.13chunk/s]


Total de embeddings generados con OpenAI: 1


In [6]:
chunks_basic = [point.payload['content'] for point in results]
print("\n---\n".join(chunks_basic))

CAPÍTULO XIII
BEBIDAS FERMENTADAS
CERVEZAS
Artículo 1080 - (Resolución Conjunta SPRyRS N° 63/02 y SAGPyA N° 345/02)
1. DESCRIPCIÓN
1.1 DEFINICIONES
1.1.1 Cerveza
Se entiende exclusivamente por cerveza la bebida resultante de fermentar, mediante
levadura cervecera, al mosto de cebada malteada o de extracto de malta, sometido
previamente a un proceso de cocción, adicionado de lúpulo. Una parte de la cebada
malteada o de extracto de malta podrá ser reemplazada por adjuntos cerveceros.
La cerveza negra podrá ser azucarada.
La cerveza podrá ser adicionada de colorantes, saborizantes y aromatizantes.
1.1.2 Malta Líquida
Se entiende por malta líquida la bebida no alcohólica, resultante del mosto de cebada
---
1.2.4.1 Cerveza
Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo contiene un
mínimo de 55% en peso de cebada malteada.
1.2.4.2 Cerveza 100% malta o de pura malta
Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo proviene
exclusivamente de cebada mal

In [7]:
print(results[0].payload['content'])

CAPÍTULO XIII
BEBIDAS FERMENTADAS
CERVEZAS
Artículo 1080 - (Resolución Conjunta SPRyRS N° 63/02 y SAGPyA N° 345/02)
1. DESCRIPCIÓN
1.1 DEFINICIONES
1.1.1 Cerveza
Se entiende exclusivamente por cerveza la bebida resultante de fermentar, mediante
levadura cervecera, al mosto de cebada malteada o de extracto de malta, sometido
previamente a un proceso de cocción, adicionado de lúpulo. Una parte de la cebada
malteada o de extracto de malta podrá ser reemplazada por adjuntos cerveceros.
La cerveza negra podrá ser azucarada.
La cerveza podrá ser adicionada de colorantes, saborizantes y aromatizantes.
1.1.2 Malta Líquida
Se entiende por malta líquida la bebida no alcohólica, resultante del mosto de cebada


In [9]:
eval_df = pd.read_excel('evaluacion.xlsx')
eval_df

Unnamed: 0,query,ground_truth,capitulo
0,¿Qué se entiende por cerveza?,Se entiende exclusivamente por cerveza la bebi...,13
1,¿Cómo se clasifican las cervezas?,El contenido de nutrientes y/o del valor energ...,13
2,¿Qué se define como sidra?,SIDRAS\nArtículo 1085 - (Resolución Conjunta S...,13
3,¿Se pueden añadir aromas a los vinos?,"Artículo 1105\nQueda prohibido fabricar, expon...",13
4,¿Los condimentos vegetales tienen algunas rest...,CONDIMENTOS VEGETALES\nArtículo 1199\nCon la d...,16
5,¿Qué caracteristicas debe tener la harina de c...,"“Con la denominación de Harina de Chía, se ent...",19
6,¿Quiénes deben cumplir con la regulación alime...,"Artículo 1\nToda persona, firma comercial o es...",1
7,¿Qué se define como aditivo alimentario?,Aditivo alime ntario: es cualquier ingrediente...,1
8,¿Cuáles son los límites de metales aceptados e...,"Artículo 156 - (Res. 1546, 17.9.85)\n""En los a...",3
9,¿Qué antioxidantes o sinergistas pueden agrega...,"Artículo 523bis - (Res 2012, 19.10.84)\n""Los a...",7


In [10]:
# eval_df_ = eval_df[:2]
# eval_df_

In [11]:
import answering.answering as ans
import retrievers.summarization as summ
import evaluation.evaluation_ragas as eval

coleccion = "openai-750-overlap"
embedding="openai"
limit = 30

# Initialize an empty list to collect results for each iteration
eval_results = []

for _, row in eval_df.iterrows():
    query = row.iloc[0]  # Assuming the query is in the first column
    ground_truth = row.iloc[1]
    print(f'Query {_}/{len(eval_df)}: {query}')
    
    # Perform embedding and search
    results = embed_and_search(query, coleccion, limit=limit, embedding=embedding)
    chunks_basic = [point.payload['content'] for point in results]
    chunks_adv = summ.summarize_multiple_chunks(query, chunks_basic)
    chunks_basic = chunks_basic[:min(len(chunks_adv),15)]
    
    # Generate answers
    answer_basic = ans.answer_query_with_context(query, chunks_basic)
    answer_adv = ans.answer_query_with_context(query, chunks_adv)
    
    # Evaluate RAGAS for basic and advanced retrieval
    ragas_basic = eval.evaluate_ragas(query, answer_basic, chunks_basic, ground_truth)
    ragas_basic['retrieval'] = "Basic"
    
    ragas_adv = eval.evaluate_ragas(query, answer_adv, chunks_adv, ground_truth)
    ragas_adv['retrieval'] = "Advanced"
    
    # Append results to the list
    eval_results.append(ragas_basic)
    eval_results.append(ragas_adv)

# Consolidate all results into a single DataFrame
df_eval = pd.concat(eval_results, ignore_index=True)

# Display or return the final DataFrame
print(df_eval)
    


Query 0/10: ¿Qué se entiende por cerveza?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.43chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Qué se entiende por cerveza?


Processing chunks:   3%|▎         | 1/30 [00:02<01:12,  2.51s/it]

Relevant Summary | Se entiende exclusivamente por cerveza la bebida resultante de fermentar, mediante levadura cervecera, al mosto de cebada malteada o de extracto de malta, sometido previamente a un proceso de cocción, adicionado de lúpulo. Una parte de la cebada malteada o de extracto de malta podrá ser reemplazada por adjuntos cerveceros. La cerveza negra podrá ser azucarada. La cerveza podrá ser adicionada de colorantes, saborizantes y aromatizantes.


Processing chunks:   7%|▋         | 2/30 [00:03<00:50,  1.79s/it]

Relevant Summary | "Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo contiene un mínimo de 55% en peso de cebada malteada."


Processing chunks:  10%|█         | 3/30 [00:05<00:48,  1.80s/it]

Relevant Summary | "Se entiende por cerveza sin alcohol a la cerveza cuyo contenido alcohólico es inferior o igual a 0,5% en volumen (0,5% vol.)." y "Cerveza con alcohol o Cerveza es la cerveza cuyo contenido alcohólico es superior a 0,5% en volumen (0,5% vol.)."


Processing chunks:  13%|█▎        | 4/30 [00:07<00:47,  1.82s/it]

Relevant Summary | "Se designa con el nombre de cerveza a la bebida definida en el numeral 1.1.1. y que cumple con las características establecidas en los numerales 1.2.1.2., 1.2.2.2., 1.2.3.1 y 1.2.4.1."


Processing chunks: 100%|██████████| 30/30 [00:29<00:00,  1.03it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 1/10: ¿Cómo se clasifican las cervezas?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.93chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Cómo se clasifican las cervezas?


Processing chunks:   3%|▎         | 1/30 [00:05<02:34,  5.32s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

- Cerveza: Se designa con el nombre de cerveza a la bebida definida en el numeral 1.1.1. y que cumple con las características establecidas en los numerales 1.2.1.2., 1.2.2.2., 1.2.3.1 y 1.2.4.1.
- Cerveza liviana y Cerveza Light: Se designa con el nombre de cerveza light a la cerveza que cumple con las características establecidas en el numeral 1.2.1.1.
- Cerveza extra: Para designar una cerveza como cerveza extra la misma deberá cumplir con las características establecidas en el numeral 1.2.1.3.
- Cerveza fuerte: Para designar una cerveza como cerveza fuerte, la misma deberá cumplir con las características establecidas en el numeral 1.2.1.4.
- Cerveza sin alcohol.


Processing chunks:   7%|▋         | 2/30 [00:11<02:41,  5.78s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

1. Respecto al extracto primitivo:
   - **Cerveza Fuerte**: Es la cerveza cuyo extracto primitivo es mayor a 14.0% en peso.

2. Respecto al grado alcohólico:
   - **Cerveza sin alcohol**: Se entiende por cerveza sin alcohol a la cerveza cuyo contenido alcohólico es inferior o igual a 0,5% en volumen (0,5% vol.).
   - **Cerveza con alcohol o Cerveza**: Es la cerveza cuyo contenido alcohólico es superior a 0,5% en volumen (0,5% vol.).

3. Respecto al color:
   - **Cerveza clara, blanca, rubia o Cerveza**: Es la cerveza cuyo color es inferior a 20 unidades E.B.C. (European Brewery Convention).
   - **Cerveza oscura o Cerveza negra**: Es la cerveza cuyo color es igual o superior a 20 unidades E.B.C. (European Brewery Convention).


Processing chunks:  17%|█▋        | 5/30 [00:16<01:13,  2.93s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

1. **Cerveza**: "Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo contiene un mínimo de 55% en peso de cebada malteada."

2. **Cerveza 100% malta o de pura malta**: "Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo proviene exclusivamente de cebada malteada."

3. **Cerveza de ... (seguida del nombre del o de los cereales mayoritarios)**: "Es la cerveza elaborada a partir de un mosto cuyo extracto primitivo proviene mayoritariamente de adjuntos cerveceros. Podrá tener hasta un 80% en peso de la totalidad de los adjuntos cerveceros referido a su extracto primitivo (no menos del 20% en peso de malta). Cuando dos o más cereales aporten igual cantidad de extracto primitivo deben citarse todos ellos."


Processing chunks:  20%|██        | 6/30 [00:24<01:51,  4.63s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

- Cerveza sin alcohol: "Se designa con el nombre de cerveza sin alcohol, a la cerveza que cumple con las características establecidas en el numeral 1.2.2.1."
- Cerveza oscura o Cerveza negra: "Se designa con el nombre de cerveza oscura o cerveza negra a la cerveza que cumple con las características establecidas en el numeral 1.2.3.2."
- Cerveza 100% malta o de pura malta: "Se podrá designar con el nombre de cerveza 100% malta o de pura malta a la cerveza que cumple con las características establecidas en el numeral 1.2.4.2."
- Cerveza de ... (seguido del nombre del adjunto cervecero mayoritario): "Se designa con el nombre de cerveza de ... (seguido del nombre del adjunto mayoritario) a la cerveza que cumple con las características establecidas en el numeral 1.2.4.3."


Processing chunks:  33%|███▎      | 10/30 [00:29<00:43,  2.19s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

1. **Cerveza**: Es la cerveza cuyo extracto primitivo es mayor o igual a 5% en peso y menor que 10,5% en peso.

2. **Cerveza**: Es la cerveza cuyo extracto primitivo es mayor o igual a 10,5% en peso, y es menor de 12,0% en peso.

3. **Cerveza Extra**: Es la cerveza cuyo extracto primitivo es mayor o igual a 12,0% en peso.


Processing chunks:  47%|████▋     | 14/30 [00:34<00:26,  1.69s/it]

Relevant Summary | Las cervezas se clasifican de la siguiente manera:

- Cerveza con sabor o aroma: "Se designa con el nombre de cerveza ... sabor de ... o cerveza ... con aroma de... a la cerveza que cumple con las características establecidas en el numeral 1.2.5.3."

- Cerveza oscura o negra azucarada o Malzbier: "Se designa con el nombre de cerveza oscura o negra azucarada o Malzbier a la cerveza que cumple con las características establecidas en el numeral 1.2.5.4."


Processing chunks:  70%|███████   | 21/30 [00:39<00:08,  1.12it/s]

Relevant Summary | 1.2 Clasificación de Cervezas  
1.2.1 Respecto al extracto primitivo  
1.2.1.1 Cerveza liviana


Processing chunks: 100%|██████████| 30/30 [00:47<00:00,  1.60s/it]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 2/10: ¿Qué se define como sidra?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  1.55chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Qué se define como sidra?


Processing chunks:   7%|▋         | 2/30 [00:02<00:31,  1.13s/it]

Relevant Summary | “Sidra es la sidra base, endulzada y gasificada. Su graduación alcohólica mínima será de 4,0% en Vol. ±0,3 a 20°C."


Processing chunks:  47%|████▋     | 14/30 [00:12<00:21,  1.32s/it]

Relevant Summary | En la Sidra: la incorporación a la sidra base, como endulzante, de sacarosa y/o jarabe de maíz de alta fructosa y/o zumo concentrado de manzanas, filtración, aplicación de calor, filtración por membranas bacteriológicas, anhídrido carbónico.


Processing chunks: 100%|██████████| 30/30 [00:24<00:00,  1.22it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 3/10: ¿Se pueden añadir aromas a los vinos?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  2.41chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Se pueden añadir aromas a los vinos?


Processing chunks: 100%|██████████| 30/30 [00:20<00:00,  1.50it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 4/10: ¿Los condimentos vegetales tienen algunas restricciones?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  1.86chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Los condimentos vegetales tienen algunas restricciones?


Processing chunks:   7%|▋         | 2/30 [00:01<00:27,  1.01it/s]

Relevant Summary | "Deben ser genuinas, sanas y responder a sus características normales, y estar exentas de sustancias extrañas y de partes de la planta de origen que no posean cualidades de condimentos (tallos, pecíolos, etc)."


Processing chunks:  10%|█         | 3/30 [00:03<00:28,  1.07s/it]

Relevant Summary | "El uso de ciertos saborizantes/aromatizantes de esta categoría puede estar limitado por la presencia de un principio activo con restricción de límite en el producto final."


Processing chunks: 100%|██████████| 30/30 [00:23<00:00,  1.30it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 5/10: ¿Qué caracteristicas debe tener la harina de chia?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  1.45chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Qué caracteristicas debe tener la harina de chia?


Processing chunks:   3%|▎         | 1/30 [00:01<00:53,  1.84s/it]

Relevant Summary | “Con la denominación de Harina de Chía, se entiende el producto proveniente de la molienda de la semilla de chía (Salvia hispana L.) debiendo presentar esta última, características de semillas sanas, limpias y bien conservadas, que han sido sometidas a prensado para la remoción parcial o prácticamente total del aceite que contienen.”


Processing chunks:   7%|▋         | 2/30 [00:05<01:22,  2.96s/it]

Relevant Summary | La harina de chía debe tener las siguientes características: 

- Humedad máxima de 9% para la harina parcialmente desgrasada y 5% para la desgrasada.
- Proteína mínima de 20% para la harina parcialmente desgrasada y 29% para la desgrasada.
- Grasa máxima de 18% para la harina parcialmente desgrasada y 7% para la desgrasada.
- Fibra total máxima de 35% para la harina parcialmente desgrasada y 52% para la desgrasada.
- Cenizas máximas de 5% para la harina parcialmente desgrasada y 6% para la desgrasada.


Processing chunks:  57%|█████▋    | 17/30 [00:17<00:16,  1.26s/it]

Relevant Summary | Las características que debe tener la harina de chía son las siguientes:

- Humedad: máx 9%
- Proteína (N x 6,25): mín 35%
- Grasa (extr etéreo): mín 18%
- Fibra cruda: máx 3,0%
- Cenizas (500-550°C): máx 5,5%
- Granulometría: el 95 por ciento debe pasar por tamiz de 149 micrones.

Además, las harinas pueden someterse o no a un tostado durante el procesamiento.


Processing chunks: 100%|██████████| 30/30 [00:26<00:00,  1.14it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 6/10: ¿Quiénes deben cumplir con la regulación alimentaria?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  2.09chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Quiénes deben cumplir con la regulación alimentaria?


Processing chunks:   3%|▎         | 1/30 [00:01<00:37,  1.30s/it]

Relevant Summary | "Los productores deben cumplir con la inscripción en el Registro Nacional Sanitario de Productores Agropecuarios (RENSPA)."


Processing chunks:   7%|▋         | 2/30 [00:04<01:02,  2.23s/it]

Relevant Summary | El presente Reglamento Técnico se aplicará al rotulado nutricional de los alimentos que se produzcan y comercialicen en el territorio de los Estados Partes del MERCOSUR, al comercio entre ellos y a las importaciones extrazona, envasados en ausencia del cliente, listos para ofrecerlos a los consumidores.


Processing chunks:  10%|█         | 3/30 [00:05<00:43,  1.60s/it]

Relevant Summary | Las Casas de Comida y Pensiones deben inscribirse en los registros de la autoridad sanitaria.


Processing chunks:  20%|██        | 6/30 [00:15<01:03,  2.66s/it]

Relevant Summary | "Toda persona que realice actividades por la cual esté o pudiera estar en contacto con alimentos, en establecimientos donde se elaboren, fraccionen, almacenen, transporten, comercialicen y/o enajenen alimentos, o sus materias primas, debe estar provista de un CARNET DE MANIPULADOR DE ALIMENTOS, expedido por la autoridad sanitaria competente, con validez en todo el territorio nacional."


Processing chunks:  30%|███       | 9/30 [00:18<00:35,  1.71s/it]

Relevant Summary | "Las empresas que elaboren alimentos para propósitos médicos específicos deberán implementar un Sistema de Análisis de Peligros y Puntos Críticos de Control (HACCP, por sus siglas en inglés) de acuerdo a las directrices que constan en el Artículo 18 bis del presente Código."


Processing chunks:  77%|███████▋  | 23/30 [00:29<00:06,  1.15it/s]

Relevant Summary | "Toda modificación en la composición, formulación o rotulado de los alimentos en virtud de las Resoluciones MERCOSUR, serán de cumplimiento obligatorio por parte de los elaboradores no siendo exigible presentación alguna ante cualquier Autoridad Sanitaria."


Processing chunks:  87%|████████▋ | 26/30 [00:31<00:03,  1.06it/s]

Relevant Summary | El presente Reglamento se aplica, en los puntos donde corresponda, a toda persona física o jurídica que posea por lo menos un establecimiento en el cual se realicen algunas de las actividades siguientes: elaboración/industrialización, fraccionamiento, almacenamiento y transporte de alimentos industrializados en los Estados Parte del Mercosur.


Processing chunks:  93%|█████████▎| 28/30 [00:33<00:02,  1.06s/it]

Relevant Summary | "Toda persona, firma comercial o establecimiento que elabore, fraccione, conserve, transporte, expenda, exponga, importe o exporte alimentos, condimentos, bebidas o primeras materias correspondientes a los mismos y aditivos alimentarios debe cumplir con las disposiciones del presente Código."


Processing chunks: 100%|██████████| 30/30 [00:35<00:00,  1.17s/it]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 7/10: ¿Qué se define como aditivo alimentario?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  2.89chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Qué se define como aditivo alimentario?


Processing chunks:   3%|▎         | 1/30 [00:01<00:42,  1.46s/it]

Relevant Summary | Aditivo alimentario: Cualquier substancia o mezcla de substancias que directa o indirectamente modifiquen las características físicas, químicas o biológicas de un alimento, a los efectos de su mejoramiento, preservación, o estabilización.


Processing chunks:   7%|▋         | 2/30 [00:03<00:52,  1.88s/it]

Relevant Summary | Aditivo alimentario: es cualquier ingrediente agregado a los alimentos intencionalmente, sin el propósito de nutrir, con el objeto de modificar las características físicas, químicas, biológicas o sensoriales, durante la manufactura, procesado, preparación, tratamiento, envasado, acondicionado, almacenado, transporte o manipulación de un alimento.


Processing chunks:  20%|██        | 6/30 [00:08<00:30,  1.28s/it]

Relevant Summary | "2.7 - Aditivo alimentario- Es cualquier ingrediente agregado a los alimentos intencionalmente, sin el propósito de nutrir, con el objeto de modificar las características físicas, químicas,"


Processing chunks:  63%|██████▎   | 19/30 [00:18<00:09,  1.13it/s]

Relevant Summary | "Los Aditivos Alimentarios, definidos en el Artículo 6°, Inc 3, del presente Código deben: a) Ser inocuos por sí o a través de su acción como aditivos en las condiciones de uso."


Processing chunks: 100%|██████████| 30/30 [00:25<00:00,  1.18it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 8/10: ¿Cuáles son los límites de metales aceptados en los alimentos?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.62chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Cuáles son los límites de metales aceptados en los alimentos?


Processing chunks:   7%|▋         | 2/30 [00:02<00:37,  1.34s/it]

Relevant Summary | "Cadmio (Cd) < 1000 µg / kilo de carne de moluscos", "Plomo (Pb) < 1000 µg / kilo de carne de moluscos", "Mercurio (Hg) < 500 µg / kilo de carne de moluscos"


Processing chunks:  13%|█▎        | 4/30 [00:07<00:56,  2.18s/it]

Relevant Summary | "Los límites de migración específica (LME) de los elementos a determinar son los siguientes:
- Antimonio (Sb) 0,04 mg/kg
- Arsénico (As) 0,01 mg/kg
- Bario (Ba) 1 mg/kg
- Boro (B) 0,5 mg/kg
- Cadmio (Cd) 0,005 mg/kg
- Cinc (Zn) 25 mg/kg
- Cobre (Cu) 5 mg/kg
- Cromo (Cr) 0,05 mg/kg
- Estaño (Sn) 1,2 mg/kg
- Flúor (F) 0,5 mg/kg
- Mercurio (Hg) 0,005 mg/kg
- Plata (Ag) 0,05 mg/kg
- Plomo (Pb) 0,01 mg/kg"


Processing chunks:  20%|██        | 6/30 [00:10<00:49,  2.05s/it]

Relevant Summary | "no contengan metales en cantidades superiores a los siguientes porcentajes: Arsénico 0,005% soluble en NaOH lN, Bario 0,01% soluble en HCl N/10, Cadmio 0,20% soluble en HCl N/10, Cinc 0,20% soluble en HCl N/10, Mercurio 0,005% soluble en HCl N/10, Plomo 0,01% soluble en HNO3 1N, Selenio 0,01% soluble en HCl N/10."


Processing chunks:  23%|██▎       | 7/30 [00:15<01:07,  2.95s/it]

Relevant Summary | Aluminio = 1 mg/kg de alimento o simulante alimentario.  
Bario = 1 mg/kg de alimento o simulante alimentario.  
Cobalto = 0,05 mg/kg de alimento o simulante alimentario.  
Cobre = 5 mg/kg de alimento o simulante alimentario.  
Hierro = 48 mg/kg de alimento o simulante alimentario.  
Litio = 0,6 mg/kg alimento o simulante alimentario.  
Manganeso = 0,6 mg/kg de alimento o simulante alimentario.  
Níquel = 0,02 mg/kg de alimento o simulante alimentario.  
Zinc = 5 mg/kg de alimento o simulante alimentario.


Processing chunks:  30%|███       | 9/30 [00:17<00:43,  2.08s/it]

Relevant Summary | El Cóctel de Frutas deberá cumplir (conjunto de frutas y líquido) con los siguientes límites en el contenido de metales: Cobre, Máx.: 10 mg/kg Arsénico, Máx.: 0,1 mg/kg Plomo, Máx.: 2,0 mg/kg Estaño, Máx.: 100,0 mg/kg.


Processing chunks:  33%|███▎      | 10/30 [00:18<00:35,  1.76s/it]

Relevant Summary | Arsénico: máx 3 mg/kg  
Plomo: máx 10 mg/kg  
Metales pesados: máx 40 mg/kg


Processing chunks:  37%|███▋      | 11/30 [00:28<01:21,  4.29s/it]

Relevant Summary | Los límites de metales aceptados en los alimentos son los siguientes:

- Antimonio: 2 mg/kg
- Arsénico: en líquidos 0,1 mg/kg, en sólidos 1 mg/kg
- Boro: 80 mg/kg
- Cobre: 10 mg/kg
- Estaño: 250 mg/kg
- Flúor: 1,5 mg/kg
- Plata: 1 mg/kg
- Plomo: 2 mg/kg
- Zinc: 100 mg/kg


Processing chunks:  40%|████      | 12/30 [00:30<01:04,  3.59s/it]

Relevant Summary | Los aditivos alimentarios que integran la lista positiva del Código Alimentario Argentino no contendrán más de 3 mg/kg de arsénico, como As; de 10 mg/kg de plomo, como Pb; y de 40 mg/kg de metales pesados como Pb, salvo indicación particular diferente. En general, se recomienda que no contenga más de 50 mg/kg de hierro y cobre globalmente.


Processing chunks:  50%|█████     | 15/30 [00:46<01:25,  5.69s/it]

Relevant Summary | Los límites de metales aceptados en los alimentos son los siguientes:

- Aceites y grasas comestibles de origen vegetal y/o animal (incluye margarina): 0,10 mg/kg
- Azúcares: 0,10 mg/kg
- Miel: 0,30 mg/kg
- Caramelos duros y blandos y similares incluidos goma de mascar: 0,10 mg/kg
- Pasta de cacao: 0,50 mg/kg
- Chocolates y productos de cacao con menos de 40 % de cacao: 0,20 mg/kg
- Chocolates y productos a base de cacao con más de 40 % de cacao: 0,40 mg/kg
- Bebidas analcohólicas (excluidos los jugos): 0,05 mg/kg
- Zumos (Jugos) y néctares de frutas: 0,05 mg/kg
- Bebidas alcohólicas fermentadas y fermento-destiladas, excepto vino: 0,20 mg/kg
- Vino: 0,15 mg/L
- Cereales y productos de y a base de cereales, excluidos trigo, arroz y sus productos derivados y aceites: 0,20 mg/kg
- Trigo y sus derivados excepto aceite: 0,20 mg/kg
- Arroz y sus derivados excepto aceite: 0,20 mg/kg
- Poroto (grano) de soja: 0,20 mg/kg
- Hortalizas del género Brassica (excluidas las de hoj

Processing chunks:  53%|█████▎    | 16/30 [00:56<01:37,  6.99s/it]

Relevant Summary | Los límites de metales aceptados en los alimentos son los siguientes:

- Miel: 0,10 mg/kg
- Pasta de cacao: 0,30 mg/kg
- Chocolates y productos de cacao con menos de 40 % de cacao: 0,20 mg/kg
- Chocolates y productos a base de cacao con más de 40 % de cacao: 0,30 mg/kg
- Bebidas analcohólicas (excluidos los jugos): 0,02 mg/kg
- Zumos (Jugos) y néctares de frutas: 0,05 mg/kg
- Bebidas alcohólicas fermentadas y fermento-destiladas, excepto vino: 0,02 mg/kg
- Vino: 0,01 mg/L
- Cereales y productos de y a base de cereales, excluidos trigo, arroz y sus productos derivados y aceites: 0,10 mg/kg
- Trigo y sus derivados excepto aceite: 0,20 mg/kg
- Arroz y sus derivados excepto aceite: 0,40 mg/kg
- Poroto (grano) de soja: 0,20 mg/kg
- Hortalizas del género Brassica (excluidas las de hojas sueltas): 0,05 mg/kg
- Hortalizas de hoja (incluidas las Brassicas de hoja suelta) y hierbas aromáticas frescas: 0,20 mg/kg
- Hortalizas de bulbo y hojas envainadoras: 0,05 mg/kg
- Hortaliz

Processing chunks:  63%|██████▎   | 19/30 [01:01<00:41,  3.77s/it]

Relevant Summary | "Antimonio (Sb) 0,04 mg/kg, Arsénico (As) 0,01 mg/kg, Bario (Ba) 1 mg/kg, Boro (B) 0,5 mg/kg, Cadmio (Cd) 0,005 mg/kg, Cinc (Zn) 25 mg/kg, Cobre (Cu) 5 mg/kg, Cromo (Cr) 0,05 mg/kg, Estaño (Sn) 1,2 mg/kg, Flúor (F) 0,5 mg/kg, Mercurio (Hg) 0,005 mg/kg, Plata (Ag) 0,05 mg/kg, Plomo (Pb) 0,01 mg/kg."


Processing chunks:  70%|███████   | 21/30 [01:03<00:21,  2.44s/it]

Relevant Summary | c) El contenido de plomo no podrá superar 0,01 mg/kg del producto listo para el consumo.  
d) El contenido de arsénico no podrá superar los 0,05 mg/kg del producto listo para el consumo.  
e) El contenido de aluminio no podrá superar 1 mg/kg del producto listo para el consumo.


Processing chunks:  73%|███████▎  | 22/30 [01:06<00:20,  2.59s/it]

Relevant Summary | Los límites de metales aceptados en los alimentos, según el texto proporcionado, son los siguientes:

- Antimonio (Sb), LME 0,04 mg/kg
- Boro (B), LME 0,5 mg/kg
- Bario (Ba), LME 1 mg/kg
- Cobre (Cu), LME 5 mg/kg
- Estaño (Sn), LME 1,2 mg/kg
- Flúor (F), LME 0,5 mg/kg
- Plata (Ag), LME 0,05 mg/kg
- Zinc (Zn), LME 25 mg/kg


Processing chunks:  80%|████████  | 24/30 [01:08<00:11,  1.95s/it]

Relevant Summary | g) Plomo (Pb) soluble en HCl 0,1N: máximo 0,01 % (m/m);  
h) Selenio (Se) soluble en HCl 0,1N: máximo 0,01 % (m/m);  
i) Zinc (Zn) soluble en HCl 0,1N: máximo 0,20 % (m/m).


Processing chunks:  87%|████████▋ | 26/30 [01:11<00:06,  1.66s/it]

Relevant Summary | "Los metales en contacto con los alimentos y sus materias primas no deberán contener más de 1% de impurezas constituidas por plomo, antimonio, cinc, cobre u otros metales considerados en conjunto, ni más de 0,01% de arsénico, ni otra substancia considerada nociva por la autoridad sanitaria nacional."


Processing chunks:  97%|█████████▋| 29/30 [01:14<00:01,  1.30s/it]

Relevant Summary | i) Hierro total como Fe, límite de composición: máximo 70 mg/kg;  
j) Hierro soluble en agua como Fe, límite de migración específica: máximo 15 mg/kg;  
k) Plomo como Pb, límite de composición: máximo 20 mg/kg;


Processing chunks: 100%|██████████| 30/30 [01:21<00:00,  2.73s/it]

Relevant Summary | Los límites de metales aceptados en los alimentos, específicamente para el plomo, son los siguientes:

- Aceites y grasas comestibles de origen vegetal y/o animal (incluye margarina): 0,10 mg/kg
- Azúcares: 0,10 mg/kg
- Miel: 0,30 mg/kg
- Caramelos duros y blandos y similares incluidos goma de mascar: 0,10 mg/kg
- Pasta de cacao: 0,50 mg/kg
- Chocolates y productos de cacao con menos de 40 % de cacao: 0,20 mg/kg
- Chocolates y productos a base de cacao con más de 40 % de cacao: 0,40 mg/kg
- Bebidas analcohólicas (excluidos los jugos): 0,05 mg/kg
- Zumos (Jugos) y néctares de frutas: 0,05 mg/kg





Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Query 9/10: ¿Qué antioxidantes o sinergistas pueden agregarse a los aceites y grasas vegetales comestibles?
Generando embeddings con OpenAI para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  1.24chunk/s]


Total de embeddings generados con OpenAI: 1
Query: ¿Qué antioxidantes o sinergistas pueden agregarse a los aceites y grasas vegetales comestibles?


Processing chunks:   3%|▎         | 1/30 [00:01<00:39,  1.35s/it]

Relevant Summary | "En el caso de los aceites deberán estar adicionados de antioxidantes y/o sinergistas autorizados según el Artículo 523 bis, Inc. 2, 3, 4, 6, 7, 8 y 9."


Processing chunks:   7%|▋         | 2/30 [00:03<00:54,  1.94s/it]

Relevant Summary | "Los aceites y grasas vegetales comestibles podrán ser adicionados, con la exclusión de los aceites de oliva de presión no refinados, de los siguientes antioxidantes y sinergistas:
1. Galato de propilo, galato de octilo y galato de dodecilo (o sus mezclas), Máx: 100 mg/kg (100 ppm), aislados o mezclados.
2. Hidroxianisol butilado (BHA), Máx: 200 mg/kg (200 ppm).
3. Hidroxitolueno butilado (BHT), Máx: 200 mg/kg (200 ppm)"


Processing chunks:  37%|███▋      | 11/30 [00:11<00:19,  1.02s/it]

Relevant Summary | "Se permite el agregado de los antioxidantes y sinergistas autorizados para aceites en el Artículo 523 y en las mismas proporciones".


Processing chunks:  50%|█████     | 15/30 [00:17<00:22,  1.49s/it]

Relevant Summary | Para los aceites y grasas vegetales comestibles, se pueden agregar los siguientes antioxidantes:

- Palmitato de ascorbilo (INS 304)
- Estearato de ascorbilo (INS 305)
- Galato de propilo (INS 310)
- Resina de guayaco (INS 314)
- Ter butil hidroxiquinona, TBHQ (INS 319)
- Butil hidroxianisol, BHA (INS 320)
- Butil hidroxitolueno, BHT (INS 321)
- Ácido fosfórico (INS 338)
- Citrato de isopropilo (mezcla) (INS 384)


Processing chunks: 100%|██████████| 30/30 [00:27<00:00,  1.10it/s]


Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

Evaluating:   0%|          | 0/4 [00:00<?, ?it/s]

                                           user_input  \
0                       ¿Qué se entiende por cerveza?   
1                       ¿Qué se entiende por cerveza?   
2                   ¿Cómo se clasifican las cervezas?   
3                   ¿Cómo se clasifican las cervezas?   
4                          ¿Qué se define como sidra?   
5                          ¿Qué se define como sidra?   
6               ¿Se pueden añadir aromas a los vinos?   
7               ¿Se pueden añadir aromas a los vinos?   
8   ¿Los condimentos vegetales tienen algunas rest...   
9   ¿Los condimentos vegetales tienen algunas rest...   
10  ¿Qué caracteristicas debe tener la harina de c...   
11  ¿Qué caracteristicas debe tener la harina de c...   
12  ¿Quiénes deben cumplir con la regulación alime...   
13  ¿Quiénes deben cumplir con la regulación alime...   
14           ¿Qué se define como aditivo alimentario?   
15           ¿Qué se define como aditivo alimentario?   
16  ¿Cuáles son los límites de 

In [12]:
df_eval.to_csv(f'evaluacion_{coleccion}_{embedding}_4o.csv', index=False)

In [53]:
from datasets import Dataset 
import os
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, LLMContextRecall
import os

# Set the OpenAI API key
os.environ['OPENAI_API_KEY'] = os.getenv('OPENAI_API_KEY')

def evaluate_ragas(query, answer,chunks, ground_truth):
    data = {
        'question': [
            query
        ],
        'response': [
                answer
        ],
        'contexts': [
                chunks
        ],
        'ground_truth': [
            ground_truth
        ]
    }

    dataset = Dataset.from_dict(data)

    context_recall = LLMContextRecall()
    score = evaluate(dataset, metrics=[context_precision, faithfulness, answer_relevancy, context_recall])
    df = score.to_pandas()
    return df

In [None]:
ground_truth = '''Se considera polen no apto para el consumo, aquel que presente una o más de las siguientes
    características:
    1. Caracteres organolépticos anormales
    2. Exceso de polvillo o de propóleos
    3. Anormalidades en la observación microscópica
    4. Composición analítica diferente a la consignada anteriormente
    5. Características microbiológicas superiores a los límites establecidos
    6. Ataque de insectos, parásitos o sus larvas
    7. Residuos de plaguicidas
    8. Substancias conservadoras
    9. Impurezas no retenidas por un tamiz IRAM 500 μ (N° 35) más de 5 por 1000.'''


df_ragas = evaluate_ragas(query,answer_adv, chunks_adv, ground_truth)
df_ragas

In [None]:
df_ragas = evaluate_ragas(query,answer_basic, chunks_basic, ground_truth)
df_ragas

In [None]:
answer_adv = answer_query_with_context(query,chunks_adv)
answer_adv

In [None]:
answer_basic = answer_query_with_context(query,chunks_basic)
answer_basic