# Configuracion del Entorno

In [1]:
# ------------------------------------------------------------
# Configuración Inicial del Entorno
# - Configura las rutas base del proyecto.
# - Verifica si el directorio `src` y sus subdirectorios existen.
# - Asegura que los módulos del proyecto sean accesibles.
# ------------------------------------------------------------

import sys
import os

# Establecer la ruta base del proyecto (un nivel hacia arriba desde el directorio actual)
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), "../"))

# Ruta hacia el directorio `src`, donde se almacenan los módulos del proyecto
SRC_PATH = os.path.join(BASE_DIR, "src")

# Agregar la ruta `src` a sys.path si no está ya presente
if SRC_PATH not in sys.path:
    sys.path.append(SRC_PATH)
    print(f"'src' agregado a sys.path correctamente: {SRC_PATH}")

# Mostrar todas las rutas actuales en sys.path (para confirmar la configuración)
print("Rutas actuales en sys.path:")
for path in sys.path:
    print(path)

# Verificar si el directorio `src` existe
print("\n¿Existe el directorio 'src'?")
print("SÍ" if os.path.exists(SRC_PATH) else "NO")

# Listar los archivos disponibles en el directorio `src`
print("\nArchivos en el directorio 'src':")
print(os.listdir(SRC_PATH))

# Ruta al subdirectorio `pdf_processing`, utilizado para procesar documentos PDF
PDF_PROCESSING_PATH = os.path.join(SRC_PATH, "pdf_processing")

# Verificar si el subdirectorio `pdf_processing` existe
print("\n¿Existe el subdirectorio 'pdf_processing'?")
print("SÍ" if os.path.exists(PDF_PROCESSING_PATH) else "NO")

# Listar los archivos dentro del subdirectorio `pdf_processing`
print("\nArchivos en 'pdf_processing':")
print(os.listdir(PDF_PROCESSING_PATH))

'src' agregado a sys.path correctamente: /Users/maximilianocruz/Documents/GitHub/practicos-rag/src
Rutas actuales en sys.path:
/Users/maximilianocruz/anaconda3/envs/ragas_env/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/ragas_env/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/ragas_env/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/ragas_env/lib/python3.11/site-packages
/Users/maximilianocruz/Documents/GitHub/practicos-rag/src

¿Existe el directorio 'src'?
SÍ

Archivos en el directorio 'src':
['retrievers', 'embedding', 'text_preprocessing', '__init__.py', 'pdf_processing', 'chunking', 'vector_store_client', 'evaluation', 'loaders']

¿Existe el subdirectorio 'pdf_processing'?
SÍ

Archivos en 'pdf_processing':
['__init__.py', '__pycache__', 'pdf_to_json.py']


# Inspeccionar PDFs

In [2]:
# ------------------------------------------------------------
# Determinar la cantidad de páginas en cada archivo PDF
# ------------------------------------------------------------
import os
import pdfplumber

# Ruta al directorio con los archivos PDF
CAPITULOS_DIR = os.path.join(BASE_DIR, "data/capitulos")

# Obtener lista de archivos PDF
pdf_files = [f for f in os.listdir(CAPITULOS_DIR) if f.endswith(".pdf")]

# Lista para almacenar información sobre los PDFs
pdf_page_counts = []

# Inspeccionar cada archivo PDF
for pdf_file in pdf_files:
    pdf_path = os.path.join(CAPITULOS_DIR, pdf_file)
    try:
        with pdfplumber.open(pdf_path) as pdf:
            num_pages = len(pdf.pages)
            pdf_page_counts.append({"file_name": pdf_file, "page_count": num_pages})
            print(f"{pdf_file}: {num_pages} páginas")
    except Exception as e:
        print(f"Error al procesar {pdf_file}: {e}")

# Ordenar los archivos por cantidad de páginas
sorted_pdfs = sorted(pdf_page_counts, key=lambda x: x["page_count"])

# Mostrar los tres documentos con menor cantidad de páginas
print("\nTres documentos con menor cantidad de páginas:")
for pdf in sorted_pdfs[:3]:
    print(f"{pdf['file_name']}: {pdf['page_count']} páginas")

capitulo6.pdf: 110 páginas
capitulo15.pdf: 46 páginas
capitulo14.pdf: 38 páginas
capitulo7.pdf: 21 páginas
capitulo5.pdf: 53 páginas
capitulo16.pdf: 124 páginas
capitulo17.pdf: 66 páginas
capitulo4.pdf: 262 páginas
capitulo13.pdf: 20 páginas
capitulo12.pdf: 71 páginas
capitulo1.pdf: 4 páginas
capitulo3.pdf: 38 páginas
capitulo10.pdf: 76 páginas
capitulo11.pdf: 99 páginas
capitulo2.pdf: 78 páginas
capitulo20.pdf: 13 páginas
capitulo21.pdf: 44 páginas
capitulo22.pdf: 5 páginas
capitulo9.pdf: 115 páginas
capitulo8.pdf: 223 páginas
capitulo19.pdf: 4 páginas
capitulo18.pdf: 178 páginas

Tres documentos con menor cantidad de páginas:
capitulo1.pdf: 4 páginas
capitulo19.pdf: 4 páginas
capitulo22.pdf: 5 páginas


In [3]:
# ------------------------------------------------------------
# Inspección de Archivos PDF Crudos (Fragmentos Ampliados)
# ------------------------------------------------------------

import pdfplumber

# Ruta al directorio con los capítulos PDF (ya configurado previamente)
CAPITULOS_DIR = os.path.join(BASE_DIR, "data/capitulos")

# Archivos PDF seleccionados para inspección (capítulos más cortos)
short_pdfs = ["capitulo1.pdf", "capitulo19.pdf", "capitulo22.pdf"]

# Límite de caracteres por página para la inspección
CHARACTER_LIMIT = 1500  # Nuevo límite extendido

# Inspeccionar cada archivo PDF
for pdf_file in short_pdfs:
    pdf_path = os.path.join(CAPITULOS_DIR, pdf_file)
    print(f"\n--- Inspeccionando: {pdf_file} ---\n")
    
    try:
        with pdfplumber.open(pdf_path) as pdf:
            for page_number, page in enumerate(pdf.pages, start=1):
                # Extraer texto crudo de la página
                raw_text = page.extract_text()
                if not raw_text:
                    print(f"--- Página {page_number} ---")
                    print("[Advertencia: No se pudo extraer texto de esta página]\n")
                    continue
                
                # Limitar el tamaño del texto mostrado
                display_text = raw_text[:CHARACTER_LIMIT]
                
                print(f"--- Página {page_number} ---")
                print(display_text)
                print("\n" + "-" * 80)  # Separador para cada página
    except Exception as e:
        print(f"Error al procesar el archivo {pdf_file}: {e}")


--- Inspeccionando: capitulo1.pdf ---

--- Página 1 ---
CAPÍTULO I
DISPOSICIONES GENERALES
Artículo 1
Toda persona, firma comercial o establecimiento que elabore, fraccione, conserve, transporte,
expenda, exponga, importe o exporte alimentos, condimentos, bebidas o primeras materias
correspondientes a los mismos y aditivos alimentarios debe cumplir con las disposiciones del
presente Código.
Artículo 2 - (Dec ME y SyAS 2092, 10.10.91)
Sustitúyese el texto del artículo 2º del Anexo I del Decreto Nº 2126/71 por el siguiente:
"Todos los alimentos, condimentos, bebidas o sus materias primas y los aditivos alimentarios
que se elaboren, fraccionen, conserven, transporten, expendan o expongan, deben satisfacer
las exigencias del presente Código.
Cuando cualquiera de aquellos sea importado, se aplicarán los requerimientos de este Código;
dichas exigencias se considerarán también satisfechas cuando los productos provengan de
países que cuenten con niveles de contralor alimentario equiparables a

# PDF a Diccionarios

In [4]:
import pdfplumber

def process_pdf_directly(pdf_paths):
    results = {}

    for pdf_path in pdf_paths:
        print(f"\nProcesando archivo: {pdf_path}")
        try:
            with pdfplumber.open(pdf_path) as pdf:
                pdf_data = {
                    "total_paginas": len(pdf.pages),
                    "total_bloques": 0,
                    "total_tablas": 0,
                    "tablas_detectadas": []
                }

                for page_num, page in enumerate(pdf.pages):
                    # Extraer texto completo de la página
                    text = page.extract_text()
                    if text:
                        pdf_data["total_bloques"] += len(text.split("\n"))  # Contar líneas como bloques

                    # Extraer tablas
                    tables = page.extract_tables()
                    pdf_data["total_tablas"] += len(tables)
                    for table in tables:
                        # Agregar un resumen de la primera fila de cada tabla
                        if table:
                            pdf_data["tablas_detectadas"].append(str(table[0])[:100])

                results[pdf_path] = pdf_data

                # Mostrar estadísticas
                print(f"--- Estadísticas para {pdf_path.split('/')[-1]} ---")
                print(f"Total de páginas procesadas: {pdf_data['total_paginas']}")
                print(f"Total de bloques analizados: {pdf_data['total_bloques']}")
                print(f"Total de tablas detectadas: {pdf_data['total_tablas']}")
                print("Resumen de tablas detectadas (primeros 100 caracteres de cada tabla):")
                for i, table_summary in enumerate(pdf_data["tablas_detectadas"], 1):
                    print(f"Tabla {i}: {table_summary}")
        except Exception as e:
            print(f"Error procesando {pdf_path}: {e}")
    
    return results

# Rutas de los PDFs a procesar
pdf_paths = [
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo22.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo13.pdf"
]

# Procesar y mostrar resultados
results = process_pdf_directly(pdf_paths)


Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf
--- Estadísticas para capitulo1.pdf ---
Total de páginas procesadas: 4
Total de bloques analizados: 167
Total de tablas detectadas: 0
Resumen de tablas detectadas (primeros 100 caracteres de cada tabla):

Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf
--- Estadísticas para capitulo19.pdf ---
Total de páginas procesadas: 4
Total de bloques analizados: 148
Total de tablas detectadas: 4
Resumen de tablas detectadas (primeros 100 caracteres de cada tabla):
Tabla 1: ['Harina de soja', None, None, None]
Tabla 2: ['Microorganismo', 'CRITERIO DE\nACEPTACIÓN', 'MÉTODO DE ENSAYO']
Tabla 3: ['Harina de Chía', None, None]
Tabla 4: ['Microorganismos', 'Criterio de Aceptación', 'Método de Ensayo (1)']

Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo22.pdf
--- Estadísticas para capitulo22.pdf 

In [5]:
import pdfplumber

def process_and_review_tables(pdf_path):
    """
    Procesa un PDF para detectar tablas y muestra las tablas completas.
    """
    try:
        with pdfplumber.open(pdf_path) as pdf:
            total_pages = len(pdf.pages)
            total_blocks = 0
            total_tables = 0
            all_tables = []  # Lista para almacenar todas las tablas detectadas
            
            print(f"Procesando archivo: {pdf_path}")
            print(f"--- Total de páginas en el PDF: {total_pages} ---")
            
            for page_num, page in enumerate(pdf.pages):
                print(f"\n--- Página {page_num + 1} ---")
                tables = page.extract_tables()
                
                for table_index, table in enumerate(tables):
                    total_tables += 1
                    all_tables.append(table)
                    print(f"\nTabla {total_tables} detectada en la página {page_num + 1}:")
                    
                    # Imprimir tabla completa
                    for row in table:
                        print("\t".join(str(cell) if cell else "" for cell in row))
            
            print(f"\n--- Estadísticas finales ---")
            print(f"Total de páginas procesadas: {total_pages}")
            print(f"Total de bloques analizados: {total_blocks}")
            print(f"Total de tablas detectadas: {total_tables}")
    except Exception as e:
        print(f"Error al procesar el PDF: {e}")

# Lista de archivos a procesar
pdf_files = [
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo22.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo13.pdf"
]

# Procesar cada archivo y revisar las tablas
for pdf_file in pdf_files:
    process_and_review_tables(pdf_file)
    print("\n" + "="*80 + "\n")

Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf
--- Total de páginas en el PDF: 4 ---

--- Página 1 ---

--- Página 2 ---

--- Página 3 ---

--- Página 4 ---

--- Estadísticas finales ---
Total de páginas procesadas: 4
Total de bloques analizados: 0
Total de tablas detectadas: 0


Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf
--- Total de páginas en el PDF: 4 ---

--- Página 1 ---

Tabla 1 detectada en la página 1:
Harina de soja			
	Con toda la grasa	Con bajo contenido de
grasa	desgrasada
	Por ciento		
Humedad 100-105°C máx	9	9	9
Proteína (N x 6,25) mín	35	45	>50 y <65
Grasa (extr etéreo) mín	18	4,5-9	máx 2
Fibra cruda máx	3,0	3,3	3,5
Cenizas (500-550°C) máx	5,5	6,5	6,5

Tabla 2 detectada en la página 1:
Microorganismo	CRITERIO DE
ACEPTACIÓN	MÉTODO DE ENSAYO
Salmonella	n=5 c=0
ausencia en 25 g	ISO 6579-1:2017

--- Página 2 ---

Tabla 3 detectada en la página 2:
Harina de Ch

In [45]:
import json

# Imprimir un ejemplo del contenido procesado
print(json.dumps(data_enriched, indent=2, ensure_ascii=False))

{
  "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf": {
    "archivo": "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf",
    "paginas": [
      {
        "numero": 1,
        "contenido": [
          {
            "id": "619a666b-b5b1-4550-ae37-84966110c1bf",
            "tipo": "texto",
            "texto": "CAPÍTULO I",
            "longitud": 10,
            "capitulo": "CAPÍTULO I",
            "articulo": null,
            "pagina": 1
          },
          {
            "id": "a3c7ccb8-ebe6-4ae0-9348-1f7a972938a0",
            "tipo": "texto",
            "texto": "DISPOSICIONES GENERALES",
            "longitud": 23,
            "capitulo": "CAPÍTULO I",
            "articulo": null,
            "pagina": 1
          },
          {
            "id": "cc5fdbe6-4450-4881-9eac-249a63e87672",
            "tipo": "texto",
            "texto": "Artículo 1",
            "longitud": 10,
            "capitulo": "CAPÍ

## PDFs a Diccionarios Pyhton

In [12]:
import pdfplumber
import re
import uuid

def process_pdfs_with_validated_metadata(pdf_paths):
    """
    Procesa múltiples archivos PDF con validación de metadatos (capítulos y artículos).
    """
    processed_data = {}
    total_global_chapters = 0
    total_global_articles = 0
    total_global_warnings = 0

    for pdf_path in pdf_paths:
        print(f"\nProcesando archivo: {pdf_path}")
        warnings = 0
        unique_articles = set()
        duplicate_articles_count = 0
        total_chapters = 0

        try:
            with pdfplumber.open(pdf_path) as pdf:
                archivo_data = {"archivo": pdf_path, "paginas": []}
                chapter_title = None
                current_article = None
                detected_articles = set()
                
                for page_num, page in enumerate(pdf.pages, start=1):
                    pagina_data = {"numero": page_num, "contenido": []}
                    text = page.extract_text()

                    if not text:
                        print(f"Página {page_num}: No se pudo extraer texto.")
                        continue

                    # Detectar capítulo
                    chapter_match = re.search(r"^\s*(CAPÍTULO\s+[IVXLCDM0-9]+)", text, re.IGNORECASE | re.MULTILINE)
                    if chapter_match:
                        chapter_title = chapter_match.group(1).upper()
                        total_chapters += 1
                        detected_articles.clear()  # Reiniciar artículos
                        print(f"Capítulo detectado: {chapter_title}")

                    # Procesar líneas de texto
                    missing_metadata = 0
                    for line in text.split("\n"):
                        article_match = re.match(r"Artículo\s+(\d+)", line)
                        if article_match:
                            article_number = int(article_match.group(1))
                            detected_article = f"Artículo {article_number}"

                            if detected_article not in detected_articles:
                                detected_articles.add(detected_article)
                                unique_articles.add(detected_article)
                                current_article = detected_article
                                print(f"Artículo detectado: {current_article}")
                            else:
                                duplicate_articles_count += 1

                        # Agregar bloque con metadatos
                        if line.strip():
                            bloque = {
                                "id": str(uuid.uuid4()),
                                "tipo": "texto",
                                "texto": line.strip(),
                                "longitud": len(line.strip()),
                                "capitulo": chapter_title or "No identificado",
                                "articulo": current_article or "No identificado",
                                "pagina": page_num
                            }
                            if not chapter_title or not current_article:
                                missing_metadata += 1
                            pagina_data["contenido"].append(bloque)

                    if missing_metadata > 0:
                        print(f"Advertencia: {missing_metadata} bloques sin metadatos en la página {page_num}.")
                        warnings += 1

                    # Procesar tablas
                    tables = page.extract_tables()
                    for table_index, table in enumerate(tables):
                        if table:
                            contexto_tabla = f"Capítulo: {chapter_title or 'Desconocido'}, Artículo: {current_article or 'Desconocido'}, Página: {page_num}"
                            pagina_data["contenido"].append({
                                "id": str(uuid.uuid4()),
                                "tipo": "tabla",
                                "tabla": table,
                                "contexto": contexto_tabla,
                                "longitud": len(table),  # Número de filas
                                "capitulo": chapter_title or "Desconocido",
                                "articulo": current_article or "Desconocido",
                                "pagina": page_num
                            })
                            print(f"Tabla {table_index + 1} detectada en la página {page_num}: {contexto_tabla}")

                    archivo_data["paginas"].append(pagina_data)

                total_global_chapters += total_chapters
                total_global_articles += len(unique_articles)
                total_global_warnings += warnings

            processed_data[pdf_path] = archivo_data
            print(f"\nResumen de {pdf_path}:")
            print(f"Total capítulos detectados: {total_chapters}")
            print(f"Total artículos únicos: {len(unique_articles)}")
            print(f"Artículos duplicados ignorados: {duplicate_articles_count}")
            print(f"Advertencias de metadatos faltantes: {warnings}")
        except Exception as e:
            print(f"Error procesando {pdf_path}: {e}")

    # Resumen global
    print("\n=== Resumen Global ===")
    print(f"Total capítulos detectados en todos los archivos: {total_global_chapters}")
    print(f"Total artículos únicos en todos los archivos: {total_global_articles}")
    print(f"Total advertencias globales de metadatos faltantes: {total_global_warnings}")

    return processed_data


# Rutas de los PDFs a procesar
pdf_paths = [
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo22.pdf",
    "/Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo13.pdf"
]

# Procesar los PDFs y obtener datos enriquecidos
data_enriched = process_pdfs_with_validated_metadata(pdf_paths)

print("\nProcesamiento completo.")


Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf
Capítulo detectado: CAPÍTULO I
Artículo detectado: Artículo 1
Artículo detectado: Artículo 2
Artículo detectado: Artículo 3
Artículo detectado: Artículo 4
Artículo detectado: Artículo 5
Advertencia: 2 bloques sin metadatos en la página 1.
Artículo detectado: Artículo 6
Artículo detectado: Artículo 7
Artículo detectado: Artículo 8
Artículo detectado: Artículo 9
Artículo detectado: Artículo 10
Artículo detectado: Artículo 11

Resumen de /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf:
Total capítulos detectados: 1
Total artículos únicos: 11
Artículos duplicados ignorados: 1
Advertencias de metadatos faltantes: 1

Procesando archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo19.pdf
Capítulo detectado: CAPÍTULO XIX
Artículo detectado: Artículo 1407
Advertencia: 3 bloques sin metadatos en la página 1.
Tabla 1 detectada 

In [13]:
def verificar_metadatos_guardados(processed_data):
    """
    Verifica los metadatos almacenados en processed_data.
    """
    print("\n=== Verificación de Metadatos Guardados ===")
    for archivo, archivo_data in processed_data.items():
        print(f"\nArchivo: {archivo}")
        paginas = archivo_data.get("paginas", [])
        print(f"Total de páginas procesadas: {len(paginas)}")

        for pagina in paginas:
            pagina_num = pagina.get("numero", "Desconocida")
            print(f"\n--- Página {pagina_num} ---")

            for bloque in pagina.get("contenido", []):
                tipo = bloque.get("tipo", "Desconocido")
                if tipo == "texto":
                    capitulo = bloque.get("capitulo", "Desconocido")
                    articulo = bloque.get("articulo", "Desconocido")
                    longitud = bloque.get("longitud", "Desconocido")
                    texto_preview = bloque.get("texto", "Desconocido")[:50]  # Muestra un preview del texto
                    print(f"[Texto] Capítulo: {capitulo}, Artículo: {articulo}, Longitud: {longitud}, Contenido: {texto_preview}...")
                elif tipo == "tabla":
                    capitulo = bloque.get("capitulo", "Desconocido")
                    articulo = bloque.get("articulo", "Desconocido")
                    dimensiones = bloque.get("longitud", "Desconocido")
                    print(f"[Tabla] Capítulo: {capitulo}, Artículo: {articulo}, Dimensiones: {dimensiones} filas")

                # Verificar si hay problemas de metadatos
                if capitulo == "Desconocido" or articulo == "Desconocido":
                    print("Advertencia: Metadatos incompletos detectados en este bloque.")

# Verificar los metadatos después de procesar los PDFs
verificar_metadatos_guardados(data_enriched)


=== Verificación de Metadatos Guardados ===

Archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo1.pdf
Total de páginas procesadas: 4

--- Página 1 ---
[Texto] Capítulo: CAPÍTULO I, Artículo: No identificado, Longitud: 10, Contenido: CAPÍTULO I...
[Texto] Capítulo: CAPÍTULO I, Artículo: No identificado, Longitud: 23, Contenido: DISPOSICIONES GENERALES...
[Texto] Capítulo: CAPÍTULO I, Artículo: Artículo 1, Longitud: 10, Contenido: Artículo 1...
[Texto] Capítulo: CAPÍTULO I, Artículo: Artículo 1, Longitud: 93, Contenido: Toda persona, firma comercial o establecimiento qu...
[Texto] Capítulo: CAPÍTULO I, Artículo: Artículo 1, Longitud: 87, Contenido: expenda, exponga, importe o exporte alimentos, con...
[Texto] Capítulo: CAPÍTULO I, Artículo: Artículo 1, Longitud: 92, Contenido: correspondientes a los mismos y aditivos alimentar...
[Texto] Capítulo: CAPÍTULO I, Artículo: Artículo 1, Longitud: 16, Contenido: presente Código....
[Texto] Capítulo: CAPÍTULO 

In [15]:
def revisar_estructuras_generadas(processed_data, num_ejemplos=5):
    """
    Revisa ejemplos de las estructuras generadas tras procesar los PDFs.
    Incluye verificaciones detalladas de las llaves y valores presentes.
    """
    print("\n--- Ejemplo de estructuras generadas tras procesar los PDFs ---\n")

    for archivo, archivo_data in processed_data.items():
        print(f"\nArchivo: {archivo.split('/')[-1]}")
        total_paginas = len(archivo_data.get("paginas", []))
        print(f"Total de páginas procesadas: {total_paginas}")

        ejemplos_texto = 0
        ejemplos_tablas = 0

        for pagina in archivo_data.get("paginas", []):
            print(f"\n--- Página {pagina.get('numero', 'Desconocida')} ---")

            for item in pagina.get("contenido", []):
                print("\n--- Verificando bloque de contenido ---")
                # Imprimir todas las llaves disponibles en el bloque
                print("Llaves encontradas:", list(item.keys()))

                # Verificar valores específicos
                tipo = item.get("tipo", "No especificado")
                capitulo = item.get("capitulo", "No especificado")
                articulo = item.get("articulo", "No especificado")
                pagina_num = item.get("pagina", "Desconocida")

                if not tipo:
                    print("Advertencia: Bloque sin tipo especificado.")
                    continue

                # Verificar y mostrar metadatos
                if tipo == "texto" and ejemplos_texto < num_ejemplos:
                    print("\nEjemplo de texto narrativo:")
                    print(f"Capítulo: {capitulo}")
                    print(f"Artículo: {articulo}")
                    print(f"Página: {pagina_num}")
                    print(f"Longitud: {item.get('longitud', 'Desconocida')} caracteres")
                    print(f"Contenido: {item.get('texto', '')[:500]}")  # Hasta 500 caracteres
                    if capitulo == "No especificado" or articulo == "No especificado":
                        print("Advertencia: Metadatos incompletos.")
                    ejemplos_texto += 1

                elif tipo == "tabla" and ejemplos_tablas < num_ejemplos:
                    print("\nEjemplo de tabla:")
                    print(f"Capítulo: {capitulo}")
                    print(f"Artículo: {articulo}")
                    print(f"Página: {pagina_num}")
                    try:
                        print(f"Dimensiones: {len(item['tabla'])} filas x {len(item['tabla'][0])} columnas")
                        print("Primera fila de la tabla:", item["tabla"][0])
                    except (KeyError, IndexError):
                        print("Advertencia: Error al procesar la tabla.")
                    if capitulo == "No especificado" or articulo == "No especificado":
                        print("Advertencia: Metadatos incompletos.")
                    ejemplos_tablas += 1

            if ejemplos_texto >= num_ejemplos and ejemplos_tablas >= num_ejemplos:
                break


# Llamar a la función para revisar las estructuras
revisar_estructuras_generadas(data_enriched, num_ejemplos=3)  # Revisar 3 ejemplos de cada tipo (texto y tablas)


--- Ejemplo de estructuras generadas tras procesar los PDFs ---


Archivo: capitulo1.pdf
Total de páginas procesadas: 4

--- Página 1 ---

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO I
Artículo: No identificado
Página: 1
Longitud: 10 caracteres
Contenido: CAPÍTULO I

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO I
Artículo: No identificado
Página: 1
Longitud: 23 caracteres
Contenido: DISPOSICIONES GENERALES

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO I
Artículo: Artículo 1
Página: 1
Longitud: 10 caracteres
Contenido: Artículo 1

--- Verificando bloque de contenido ---
Llaves encontradas: ['i

In [16]:
def revisar_paginas_especificas(processed_data, archivo_parcial_nombre, paginas_deseadas):
    """
    Revisa páginas específicas de un archivo procesado basado en un nombre parcial.
    Incluye verificaciones detalladas de las llaves y valores presentes.
    """
    archivo_nombre = None
    for key in processed_data.keys():
        if archivo_parcial_nombre in key:
            archivo_nombre = key
            break

    if not archivo_nombre:
        print(f"Archivo {archivo_parcial_nombre} no encontrado en los datos procesados.")
        return

    print(f"\n--- Revisando páginas específicas ({paginas_deseadas}) del archivo: {archivo_nombre} ---\n")

    archivo_data = processed_data[archivo_nombre]
    paginas = archivo_data.get("paginas", [])

    for pagina in paginas:
        numero_pagina = pagina.get("numero", None)
        if numero_pagina in paginas_deseadas:
            print(f"\n--- Página {numero_pagina} ---")

            for item in pagina.get("contenido", []):
                print("\n--- Verificando bloque de contenido ---")
                # Imprimir todas las llaves disponibles en el bloque
                print("Llaves encontradas:", list(item.keys()))

                # Verificar valores específicos
                tipo = item.get("tipo", "No especificado")
                capitulo = item.get("capitulo", "No especificado")
                articulo = item.get("articulo", "No especificado")
                pagina_num = item.get("pagina", "Desconocida")

                if not tipo:
                    print("Advertencia: Bloque sin tipo especificado.")
                    continue

                if tipo == "texto":
                    print("\nEjemplo de texto narrativo:")
                    print(f"Capítulo: {capitulo}")
                    print(f"Artículo: {articulo}")
                    print(f"Página: {pagina_num}")
                    print(f"Longitud: {item.get('longitud', 'Desconocida')} caracteres")
                    print(f"Contenido: {item.get('texto', '')[:500]}")  # Hasta 500 caracteres
                    if capitulo == "No especificado" or articulo == "No especificado":
                        print("Advertencia: Metadatos incompletos.")

                elif tipo == "tabla":
                    print("\nEjemplo de tabla:")
                    try:
                        print(f"Dimensiones: {len(item['tabla'])} filas x {len(item['tabla'][0])} columnas")
                        print("Primera fila de la tabla:", item["tabla"][0])
                    except (KeyError, IndexError):
                        print("Advertencia: Error al procesar la tabla.")
                    if capitulo == "No especificado" or articulo == "No especificado":
                        print("Advertencia: Metadatos incompletos.")

# Revisar las páginas 6 a 10 del archivo capitulo13.pdf
revisar_paginas_especificas(data_enriched, "capitulo13", paginas_deseadas=list(range(6, 11)))


--- Revisando páginas específicas ([6, 7, 8, 9, 10]) del archivo: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo13.pdf ---


--- Página 6 ---

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO XIII
Artículo: Artículo 1080
Página: 6
Longitud: 82 caracteres
Contenido: 8.2.4 La denominación de venta correspondiente a las diferentes clasificaciones de

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO XIII
Artículo: Artículo 1080
Página: 6
Longitud: 53 caracteres
Contenido: cervezas debe tener el mismo realce y tamaño de letra

--- Verificando bloque de contenido ---
Llaves encontradas: ['id', 'tipo', 'texto', 'longitud', 'capitulo', 'articulo', 'pagina']

Ejemplo de texto narrativo:
Capítulo: CAPÍTULO XIII

# Chunking de Prueba en Docs Seleccionados

In [18]:
def chunk_documents_hierarchically(processed_data, chunk_size=3000):
    """
    Realiza un chunking jerárquico de los documentos procesados, respetando la estructura de capítulos y artículos.
    Los chunks tienen un tamaño aproximado de 3000 caracteres y se enriquecen con metadatos adicionales.
    """
    chunks = []

    for archivo, archivo_data in processed_data.items():
        current_chunk_text = ""
        current_chunk_tables = []
        current_chunk_size = 0
        current_capitulo = None
        paginas_inicial = None
        paginas_final = None

        for pagina in archivo_data.get("paginas", []):
            pagina_numero = pagina.get("numero", "Desconocida")
            for item in pagina.get("contenido", []):
                capitulo = item.get("capitulo", "No identificado")
                tipo = item.get("tipo", "No especificado")
                texto = item.get("texto", "").strip()
                tabla = item.get("tabla", None)

                # Detectar cambio de capítulo y guardar el chunk anterior
                if current_capitulo and capitulo != current_capitulo:
                    if current_chunk_text or current_chunk_tables:
                        chunks.append({
                            "capitulo": current_capitulo,
                            "texto": current_chunk_text.strip(),
                            "tablas": current_chunk_tables,
                            "metadatos": {
                                "archivo": archivo.split("/")[-1],
                                "paginas_inicial": paginas_inicial,
                                "paginas_final": paginas_final,
                                "total_caracteres": len(current_chunk_text),
                                "total_tablas": len(current_chunk_tables)
                            }
                        })
                    # Reiniciar chunk para el nuevo capítulo
                    current_chunk_text = ""
                    current_chunk_tables = []
                    current_chunk_size = 0
                    paginas_inicial = None

                current_capitulo = capitulo
                if paginas_inicial is None:
                    paginas_inicial = pagina_numero
                paginas_final = pagina_numero

                if tipo == "texto":
                    # Añadir texto asegurando no exceder el tamaño del chunk
                    if current_chunk_size + len(texto) > chunk_size:
                        # Finalizar el chunk actual antes de añadir el nuevo texto
                        chunks.append({
                            "capitulo": current_capitulo,
                            "texto": current_chunk_text.strip(),
                            "tablas": current_chunk_tables,
                            "metadatos": {
                                "archivo": archivo.split("/")[-1],
                                "paginas_inicial": paginas_inicial,
                                "paginas_final": paginas_final,
                                "total_caracteres": len(current_chunk_text),
                                "total_tablas": len(current_chunk_tables)
                            }
                        })
                        # Reiniciar chunk
                        current_chunk_text = texto + "\n"
                        current_chunk_tables = []
                        current_chunk_size = len(texto)
                        paginas_inicial = pagina_numero
                    else:
                        # Añadir texto al chunk actual
                        current_chunk_text += texto + "\n"
                        current_chunk_size += len(texto)

                elif tipo == "tabla" and tabla:
                    # Añadir tabla al chunk actual
                    current_chunk_tables.append(tabla)

        # Guardar el último chunk del archivo
        if current_chunk_text or current_chunk_tables:
            chunks.append({
                "capitulo": current_capitulo,
                "texto": current_chunk_text.strip(),
                "tablas": current_chunk_tables,
                "metadatos": {
                    "archivo": archivo.split("/")[-1],
                    "paginas_inicial": paginas_inicial,
                    "paginas_final": paginas_final,
                    "total_caracteres": len(current_chunk_text),
                    "total_tablas": len(current_chunk_tables)
                }
            })

    return chunks

# Realizar el chunking jerárquico con los datos procesados
chunked_data = chunk_documents_hierarchically(data_enriched, chunk_size=3000)

# Ejemplo: Mostrar los primeros 3 chunks generados
print("\n--- Ejemplo de chunks generados ---\n")
for idx, chunk in enumerate(chunked_data[:3]):
    print(f"--- Chunk {idx + 1} ---")
    print(f"Capítulo: {chunk['capitulo']}")
    print(f"Texto (tamaño): {len(chunk['texto'])} caracteres")
    print(f"Tablas: {len(chunk['tablas'])}")
    print(f"Metadatos: {chunk['metadatos']}")
    print()


--- Ejemplo de chunks generados ---

--- Chunk 1 ---
Capítulo: CAPÍTULO I
Texto (tamaño): 2996 caracteres
Tablas: 0
Metadatos: {'archivo': 'capitulo1.pdf', 'paginas_inicial': 1, 'paginas_final': 1, 'total_caracteres': 2997, 'total_tablas': 0}

--- Chunk 2 ---
Capítulo: CAPÍTULO I
Texto (tamaño): 3006 caracteres
Tablas: 0
Metadatos: {'archivo': 'capitulo1.pdf', 'paginas_inicial': 1, 'paginas_final': 2, 'total_caracteres': 3007, 'total_tablas': 0}

--- Chunk 3 ---
Capítulo: CAPÍTULO I
Texto (tamaño): 2992 caracteres
Tablas: 0
Metadatos: {'archivo': 'capitulo1.pdf', 'paginas_inicial': 2, 'paginas_final': 3, 'total_caracteres': 2993, 'total_tablas': 0}



In [19]:
def revisar_chunks(chunked_data, num_ejemplos=3, incluir_tablas=False):
    """
    Revisa los chunks generados, mostrando ejemplos de texto narrativo y/o tablas según se indique.
    """
    print("\n--- Ejemplo de revisión de chunks ---\n")
    ejemplos_mostrados = 0

    for idx, chunk in enumerate(chunked_data):
        if incluir_tablas and chunk["tablas"]:
            print(f"--- Chunk {idx + 1} (Con Tablas) ---")
            print(f"Capítulo: {chunk['capitulo']}")
            print(f"Texto (tamaño): {len(chunk['texto'])} caracteres")
            print(f"Metadatos: {chunk['metadatos']}")
            print("\nTexto del Chunk:")
            print(chunk["texto"][:500])  # Muestra los primeros 500 caracteres del texto
            print("\nTablas del Chunk:")
            for i, tabla in enumerate(chunk["tablas"]):
                print(f"- Tabla {i + 1}: {len(tabla)} filas")
                print(f"Primera fila: {tabla[0]}")  # Muestra la primera fila como ejemplo
            ejemplos_mostrados += 1

        elif not incluir_tablas and not chunk["tablas"]:
            print(f"--- Chunk {idx + 1} (Narrativo) ---")
            print(f"Capítulo: {chunk['capitulo']}")
            print(f"Texto (tamaño): {len(chunk['texto'])} caracteres")
            print(f"Metadatos: {chunk['metadatos']}")
            print("\nTexto del Chunk:")
            print(chunk["texto"][:500])  # Muestra los primeros 500 caracteres del texto
            ejemplos_mostrados += 1

        if ejemplos_mostrados >= num_ejemplos:
            break

# Revisar 3 chunks narrativos (sin tablas)
revisar_chunks(chunked_data, num_ejemplos=3, incluir_tablas=False)

# Revisar 3 chunks que contengan tablas
revisar_chunks(chunked_data, num_ejemplos=3, incluir_tablas=True)


--- Ejemplo de revisión de chunks ---

--- Chunk 1 (Narrativo) ---
Capítulo: CAPÍTULO I
Texto (tamaño): 2996 caracteres
Metadatos: {'archivo': 'capitulo1.pdf', 'paginas_inicial': 1, 'paginas_final': 1, 'total_caracteres': 2997, 'total_tablas': 0}

Texto del Chunk:
CAPÍTULO I
DISPOSICIONES GENERALES
Artículo 1
Toda persona, firma comercial o establecimiento que elabore, fraccione, conserve, transporte,
expenda, exponga, importe o exporte alimentos, condimentos, bebidas o primeras materias
correspondientes a los mismos y aditivos alimentarios debe cumplir con las disposiciones del
presente Código.
Artículo 2 - (Dec ME y SyAS 2092, 10.10.91)
Sustitúyese el texto del artículo 2º del Anexo I del Decreto Nº 2126/71 por el siguiente:
"Todos los alimentos, condim
--- Chunk 2 (Narrativo) ---
Capítulo: CAPÍTULO I
Texto (tamaño): 3006 caracteres
Metadatos: {'archivo': 'capitulo1.pdf', 'paginas_inicial': 1, 'paginas_final': 2, 'total_caracteres': 3007, 'total_tablas': 0}

Texto del Chunk:
Un térm

## Mostrar Contenidos Completos

In [20]:
for idx, chunk in enumerate(chunked_data[:5]):  # Ajusta el rango para más chunks
    print(f"--- Chunk {idx + 1} ---")
    print(f"Capítulo: {chunk['capitulo']}")
    print(f"Texto completo:\n{chunk['texto']}")
    if chunk["tablas"]:
        for i, tabla in enumerate(chunk["tablas"]):
            print(f"\nTabla {i + 1}:")
            for fila in tabla:
                print(fila)

--- Chunk 1 ---
Capítulo: CAPÍTULO I
Texto completo:
CAPÍTULO I
DISPOSICIONES GENERALES
Artículo 1
Toda persona, firma comercial o establecimiento que elabore, fraccione, conserve, transporte,
expenda, exponga, importe o exporte alimentos, condimentos, bebidas o primeras materias
correspondientes a los mismos y aditivos alimentarios debe cumplir con las disposiciones del
presente Código.
Artículo 2 - (Dec ME y SyAS 2092, 10.10.91)
Sustitúyese el texto del artículo 2º del Anexo I del Decreto Nº 2126/71 por el siguiente:
"Todos los alimentos, condimentos, bebidas o sus materias primas y los aditivos alimentarios
que se elaboren, fraccionen, conserven, transporten, expendan o expongan, deben satisfacer
las exigencias del presente Código.
Cuando cualquiera de aquellos sea importado, se aplicarán los requerimientos de este Código;
dichas exigencias se considerarán también satisfechas cuando los productos provengan de
países que cuenten con niveles de contralor alimentario equiparables a los

## Analizar Estadísticas de los Chunks

In [21]:
def analizar_chunks(chunked_data):
    total_chunks = len(chunked_data)
    total_caracteres = sum(len(chunk["texto"]) for chunk in chunked_data)
    total_tablas = sum(len(chunk["tablas"]) for chunk in chunked_data)

    print("\n--- Estadísticas Generales de los Chunks ---")
    print(f"Total de chunks: {total_chunks}")
    print(f"Total de caracteres en todos los chunks: {total_caracteres}")
    print(f"Promedio de caracteres por chunk: {total_caracteres / total_chunks:.2f}")
    print(f"Total de tablas en todos los chunks: {total_tablas}")

# Analizar los chunks generados
analizar_chunks(chunked_data)


--- Estadísticas Generales de los Chunks ---
Total de chunks: 29
Total de caracteres en todos los chunks: 82752
Promedio de caracteres por chunk: 2853.52
Total de tablas en todos los chunks: 14


In [22]:
from statistics import mean, stdev

def calcular_estadisticas_chunks_por_capitulo(chunked_data):
    """
    Calcula estadísticas descriptivas de los chunks generados agrupados por capítulo.
    """
    estadisticas = {}

    for chunk in chunked_data:
        capitulo = chunk["capitulo"]
        total_caracteres = chunk["metadatos"]["total_caracteres"]
        total_tablas = len(chunk["tablas"])
        paginas_inicial = chunk["metadatos"]["paginas_inicial"]
        paginas_final = chunk["metadatos"]["paginas_final"]

        if capitulo not in estadisticas:
            estadisticas[capitulo] = {
                "total_chunks": 0,
                "total_caracteres": [],
                "total_tablas": 0,
                "rango_paginas": set()
            }

        # Actualizar estadísticas
        estadisticas[capitulo]["total_chunks"] += 1
        estadisticas[capitulo]["total_caracteres"].append(total_caracteres)
        estadisticas[capitulo]["total_tablas"] += total_tablas
        estadisticas[capitulo]["rango_paginas"].update(range(paginas_inicial, paginas_final + 1))

    # Calcular estadísticas finales
    estadisticas_descriptivas = {}
    for capitulo, data in estadisticas.items():
        estadisticas_descriptivas[capitulo] = {
            "total_chunks": data["total_chunks"],
            "promedio_caracteres": mean(data["total_caracteres"]),
            "desviacion_caracteres": stdev(data["total_caracteres"]) if len(data["total_caracteres"]) > 1 else 0,
            "total_tablas": data["total_tablas"],
            "rango_paginas": f"{min(data['rango_paginas'])}-{max(data['rango_paginas'])}"
        }

    return estadisticas_descriptivas

# Calcular estadísticas descriptivas por capítulo
estadisticas_por_capitulo = calcular_estadisticas_chunks_por_capitulo(chunked_data)

# Mostrar estadísticas
print("--- Estadísticas por Capítulo ---")
for capitulo, stats in estadisticas_por_capitulo.items():
    print(f"Capítulo: {capitulo}")
    print(f"  Total de chunks: {stats['total_chunks']}")
    print(f"  Promedio de caracteres por chunk: {stats['promedio_caracteres']:.2f}")
    print(f"  Desviación estándar de caracteres por chunk: {stats['desviacion_caracteres']:.2f}")
    print(f"  Total de tablas: {stats['total_tablas']}")
    print(f"  Rango de páginas: {stats['rango_paginas']}")
    print()

--- Estadísticas por Capítulo ---
Capítulo: CAPÍTULO I
  Total de chunks: 4
  Promedio de caracteres por chunk: 2945.00
  Desviación estándar de caracteres por chunk: 108.16
  Total de tablas: 0
  Rango de páginas: 1-4

Capítulo: CAPÍTULO XIX
  Total de chunks: 3
  Promedio de caracteres por chunk: 2809.67
  Desviación estándar de caracteres por chunk: 404.86
  Total de tablas: 4
  Rango de páginas: 1-4

Capítulo: CAPÍTULO XXII
  Total de chunks: 4
  Promedio de caracteres por chunk: 2318.00
  Desviación estándar de caracteres por chunk: 1398.75
  Total de tablas: 2
  Rango de páginas: 1-5

Capítulo: CAPÍTULO XIII
  Total de chunks: 18
  Promedio de caracteres por chunk: 2961.11
  Desviación estándar de caracteres por chunk: 253.38
  Total de tablas: 8
  Rango de páginas: 1-20



# Embeddings

In [18]:
from embedding.embedding_v2 import generate_embeddings_v2 as generate_embeddings

# Generar embeddings para todos los chunks procesados
print(f"Generando embeddings para un total de {len(all_chunks)} archivos...")

all_embeddings = []

for file in all_chunks:
    file_name = file["file_name"]
    chunks = file["chunks"]

    try:
        # Generar embeddings para todos los chunks (usando el formato extendido)
        embeddings = generate_embeddings(chunks)

        # Almacenar resultados
        all_embeddings.append({
            "file_name": file_name,
            "embeddings": embeddings,
            "chunks": chunks  # Incluye los chunks originales para mantener contexto
        })

        print(f"Embeddings generados para el archivo {file_name}: {len(embeddings)} embeddings.")
    except Exception as e:
        print(f"Error al generar embeddings para el archivo {file_name}: {e}")

# Validación y resumen final
if all_embeddings:
    total_embeddings = sum(len(file["embeddings"]) for file in all_embeddings if file["embeddings"])
    print(f"\nTotal de embeddings generados: {total_embeddings}")
    if all_embeddings[0]["embeddings"]:
        print(f"Ejemplo de embedding del archivo {all_embeddings[0]['file_name']}:\n{all_embeddings[0]['embeddings'][0]}")
else:
    print("No se generaron embeddings. Verificar los datos de entrada y el módulo de embeddings.")

  from .autonotebook import tqdm as notebook_tqdm


Modelo 'all-MiniLM-L6-v2' cargado correctamente.
Cargando el módulo 'embedding'
Modelo 'all-MiniLM-L6-v2' cargado correctamente.
Generando embeddings para un total de 22 archivos...
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  4.13chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo6.pdf: 1 embeddings.
Generando embeddings para 2 chunks...


Generando embeddings: 100%|██████████| 2/2 [00:00<00:00, 20.76chunk/s]


Total de embeddings generados: 2
Embeddings generados para el archivo capitulo15.pdf: 2 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 15.74chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo14.pdf: 1 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 14.47chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo7.pdf: 1 embeddings.
Generando embeddings para 6 chunks...


Generando embeddings: 100%|██████████| 6/6 [00:00<00:00, 16.37chunk/s]


Total de embeddings generados: 6
Embeddings generados para el archivo capitulo5.pdf: 6 embeddings.
Generando embeddings para 3 chunks...


Generando embeddings: 100%|██████████| 3/3 [00:00<00:00, 18.17chunk/s]


Total de embeddings generados: 3
Embeddings generados para el archivo capitulo16.pdf: 3 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 57.85chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo17.pdf: 1 embeddings.
Generando embeddings para 2 chunks...


Generando embeddings: 100%|██████████| 2/2 [00:00<00:00, 21.70chunk/s]


Total de embeddings generados: 2
Embeddings generados para el archivo capitulo4.pdf: 2 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 14.40chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo13.pdf: 1 embeddings.
Generando embeddings para 4 chunks...


Generando embeddings: 100%|██████████| 4/4 [00:00<00:00, 21.98chunk/s]


Total de embeddings generados: 4
Embeddings generados para el archivo capitulo12.pdf: 4 embeddings.
Generando embeddings para 2 chunks...


Generando embeddings: 100%|██████████| 2/2 [00:00<00:00, 23.42chunk/s]


Total de embeddings generados: 2
Embeddings generados para el archivo capitulo1.pdf: 2 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 40.22chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo3.pdf: 1 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 13.93chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo10.pdf: 1 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 14.00chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo11.pdf: 1 embeddings.
Generando embeddings para 2 chunks...


Generando embeddings: 100%|██████████| 2/2 [00:00<00:00, 71.26chunk/s]


Total de embeddings generados: 2
Embeddings generados para el archivo capitulo2.pdf: 2 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 39.53chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo20.pdf: 1 embeddings.
Generando embeddings para 2 chunks...


Generando embeddings: 100%|██████████| 2/2 [00:00<00:00, 25.17chunk/s]


Total de embeddings generados: 2
Embeddings generados para el archivo capitulo21.pdf: 2 embeddings.
Generando embeddings para 0 chunks...


Generando embeddings: 0chunk [00:00, ?chunk/s]


Total de embeddings generados: 0
Embeddings generados para el archivo capitulo22.pdf: 0 embeddings.
Generando embeddings para 3 chunks...


Generando embeddings: 100%|██████████| 3/3 [00:00<00:00, 26.24chunk/s]


Total de embeddings generados: 3
Embeddings generados para el archivo capitulo9.pdf: 3 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 13.33chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo8.pdf: 1 embeddings.
Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00, 76.00chunk/s]


Total de embeddings generados: 1
Embeddings generados para el archivo capitulo19.pdf: 1 embeddings.
Generando embeddings para 3 chunks...


Generando embeddings: 100%|██████████| 3/3 [00:00<00:00, 19.06chunk/s]

Total de embeddings generados: 3
Embeddings generados para el archivo capitulo18.pdf: 3 embeddings.

Total de embeddings generados: 40
Ejemplo de embedding del archivo capitulo6.pdf:
[-1.09336935e-02  2.61899456e-03  2.56575402e-02 -3.02198697e-02
 -5.96843772e-02 -2.10330673e-02  2.04430558e-02  4.05637175e-02
 -3.86524051e-02  2.48832889e-02  8.74448121e-02 -1.24379039e-01
 -2.33624559e-02  3.52871865e-02 -2.89007537e-02 -2.74569131e-02
  2.40339041e-02  1.35396793e-02  4.48620953e-02  6.94879517e-02
  1.04928449e-01 -6.05803402e-03 -6.63102716e-02  9.45385918e-02
 -1.27126426e-01 -5.64942099e-02 -8.44008476e-02 -2.79164035e-03
 -7.94312954e-02 -9.33506563e-02 -8.91849324e-02  6.94086179e-02
  3.97856124e-02 -3.31940912e-02  1.66781731e-02 -2.40011141e-02
  7.79987872e-03 -3.07461359e-02  5.27318455e-02  1.02341861e-01
 -3.10140643e-02 -7.55785871e-03 -8.85414928e-02 -2.27277186e-02
 -7.53773525e-02 -8.24958906e-02 -7.88221508e-02  2.74797902e-02
  5.81634464e-03 -1.58053394e-02 -5.6




In [19]:
# Crear metadata_list desde los chunks generados
metadata_list = []
for file in all_chunks:
    for chunk in file["chunks"]:
        metadata_list.append({
            "file_name": file["file_name"],  # Nombre del archivo del que proviene el chunk
            "chunk_type": chunk["type"],     # Tipo del chunk (narrative o table)
            "content_length": len(chunk["content"])  # Longitud del contenido del chunk
        })

# Mostrar la cantidad de metadatos generados
print(f"Metadatos generados para {len(metadata_list)} chunks.")

Metadatos generados para 40 chunks.


In [20]:
from vector_store_client.vector_store_client_v2 import insert_embeddings_v2
from qdrant_client import QdrantClient

# **Paso 1: Conectar a Qdrant**
qdrant_client = QdrantClient("http://localhost:6333")  # Actualiza con la configuración adecuada
print("Conexión a Qdrant establecida con éxito.")

# **Paso 2: Definir el nombre de la colección**
index_name = "embeddings-version-2"  # Nombre de la colección en Qdrant

# **Paso 3: Preparar datos para insertar**
embeddings_list = []
metadata_list = []

for file in all_embeddings:
    file_name = file["file_name"]
    embeddings = file["embeddings"]
    chunks = file["chunks"]

    # Generar metadatos por chunk
    for idx, (embedding, chunk) in enumerate(zip(embeddings, chunks)):
        if embedding is None:
            print(f"Advertencia: Embedding None encontrado en {file_name}, chunk {idx}. Saltando.")
            continue
        embeddings_list.append(embedding)
        metadata_list.append({
            "file_name": file_name,
            "chunk_id": idx,
            "chunk_type": chunk["type"],
            "content_length": len(chunk["content"]),
            "content": chunk["content"]
        })

# Verificar que los embeddings y metadatos no estén vacíos
if not embeddings_list or not metadata_list:
    raise ValueError("No se encontraron embeddings o metadatos para insertar en Qdrant.")

# **Paso 4: Insertar embeddings en Qdrant**
print(f"Insertando {len(embeddings_list)} embeddings en la colección '{index_name}' en lotes de 100...")
insert_embeddings_v2(qdrant_client, index_name, embeddings_list, metadata_list, batch_size=100)
print("Embeddings generados e insertados en Qdrant con éxito.")

Conexión a Qdrant establecida con éxito.
Insertando 40 embeddings en la colección 'embeddings-version-2' en lotes de 100...


ResponseHandlingException: [Errno 61] Connection refused

In [13]:
import numpy as np
from embedding import generate_embeddings
from vector_store_client import search_qdrant, format_qdrant_results

# **Paso 1: Definir la consulta**
query = "¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?"

# **Paso 2: Generar el embedding de la consulta**

query_embeddings = generate_embeddings([query])  # Generar embeddings
if not query_embeddings or len(query_embeddings) == 0:
    raise ValueError("No se pudo generar el embedding para la consulta. Verifica la función generate_embeddings.")

query_embedding = query_embeddings[0]  # Acceder al primer embedding si existe
print("Embedding de la consulta generado con éxito.")

# **Paso 3: Realizar la búsqueda en Qdrant**
limit = 5  # Número de resultados a devolver
search_results = search_qdrant(qdrant_client, index_name, query_embedding, limit=limit)

# **Paso 4: Formatear y mostrar los resultados**
print(f"\nResultados de la búsqueda para la consulta: '{query}'")
if search_results:
    format_qdrant_results(query, search_results)  # Usa la función para mostrar resultados de forma ordenada
else:
    print("No se encontraron resultados para la consulta.")

Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.11chunk/s]


Total de embeddings generados: 1
Embedding de la consulta generado con éxito.

Resultados de la búsqueda para la consulta: '¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?'
Consulta: ¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?

Total de resultados encontrados: 5

--------------------------------------------------------------------------------
ID: 8ca9054a-2576-4472-9011-97b655a83b8e
Puntaje de Similitud (score): 0.7606783
Payload completo:
  Contenido es un diccionario con las siguientes claves:
    type: narrative
    content: Cuando cualquiera de aquellos sea importado, se aplicarán los requeri mientos de este Código; dichas exigencias se considerarán también satisfechas cuando los productos provengan de países que cuenten con niveles de contralor alimentario equiparables a los de la República Argentina a criterio de la Autoridad Sanitaria Nacion al, o cuando utilicen las normas del Codex
Al