In [1]:
import sys
import os

BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), "../"))
SRC_PATH = os.path.join(BASE_DIR, "src")

if SRC_PATH not in sys.path:
    sys.path.append(SRC_PATH)
    print(f"'src' agregado a sys.path correctamente: {SRC_PATH}")

print("Rutas actuales en sys.path:")
for path in sys.path:
    print(path)

'src' agregado a sys.path correctamente: /Users/maximilianocruz/Documents/GitHub/practicos-rag/src
Rutas actuales en sys.path:
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/site-packages
/Users/maximilianocruz/Documents/GitHub/practicos-rag/src


In [2]:
import os

# Verifica si el directorio pdf_processing existe
print("¿Existe el directorio 'pdf_processing'?")
print(os.path.exists(os.path.join(SRC_PATH, "pdf_processing")))

# Lista los archivos en pdf_processing
print("Archivos en 'pdf_processing':")
print(os.listdir(os.path.join(SRC_PATH, "pdf_processing")))

¿Existe el directorio 'pdf_processing'?
True
Archivos en 'pdf_processing':
['__init__.py', '__pycache__', 'pdf_to_json.py']


In [3]:
# Diagnóstico de sys.path
print("Rutas en sys.path:")
for path in sys.path:
    print(path)

# Intentar cargar el módulo directamente
import importlib.util

module_path = os.path.join(SRC_PATH, "pdf_processing", "pdf_to_json.py")
spec = importlib.util.spec_from_file_location("pdf_processing.pdf_to_json", module_path)
module = importlib.util.module_from_spec(spec)
spec.loader.exec_module(module)

# Verifica si la función está disponible
print(dir(module))

Rutas en sys.path:
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/site-packages
/Users/maximilianocruz/Documents/GitHub/practicos-rag/src
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'process_pdf_to_json']


In [4]:
import importlib.util

# Cargar manualmente process_pdf_to_json
module_path = os.path.join(SRC_PATH, "pdf_processing", "pdf_to_json.py")
spec = importlib.util.spec_from_file_location("pdf_processing.pdf_to_json", module_path)
pdf_processing = importlib.util.module_from_spec(spec)
spec.loader.exec_module(pdf_processing)

# Usar la función
process_pdf_to_json = pdf_processing.process_pdf_to_json
print(process_pdf_to_json)


<function process_pdf_to_json at 0x105614400>


In [5]:
import os
from PyPDF2 import PdfReader

# Paso 1: Contar los archivos PDF
input_folder = os.path.join(BASE_DIR, "data/capitulos")
files = os.listdir(input_folder)

# Paso 2: Contar las páginas de cada documento PDF
total_pages = 0
pdf_files = [file for file in files if file.endswith('.pdf')]

print(f"Total de documentos PDF encontrados: {len(pdf_files)}\n")

for file_name in pdf_files:
    pdf_path = os.path.join(input_folder, file_name)
    reader = PdfReader(pdf_path)
    num_pages = len(reader.pages)
    total_pages += num_pages
    print(f"Documento: {file_name}, Páginas: {num_pages}")

print(f"Total de páginas en todos los documentos: {total_pages}")

Total de documentos PDF encontrados: 22

Documento: capitulo6.pdf, Páginas: 110
Documento: capitulo15.pdf, Páginas: 46
Documento: capitulo14.pdf, Páginas: 38
Documento: capitulo7.pdf, Páginas: 21
Documento: capitulo5.pdf, Páginas: 53
Documento: capitulo16.pdf, Páginas: 124
Documento: capitulo17.pdf, Páginas: 66
Documento: capitulo4.pdf, Páginas: 262
Documento: capitulo13.pdf, Páginas: 20
Documento: capitulo12.pdf, Páginas: 71
Documento: capitulo1.pdf, Páginas: 4
Documento: capitulo3.pdf, Páginas: 38
Documento: capitulo10.pdf, Páginas: 76
Documento: capitulo11.pdf, Páginas: 99
Documento: capitulo2.pdf, Páginas: 78
Documento: capitulo20.pdf, Páginas: 13
Documento: capitulo21.pdf, Páginas: 44
Documento: capitulo22.pdf, Páginas: 5
Documento: capitulo9.pdf, Páginas: 115
Documento: capitulo8.pdf, Páginas: 223
Documento: capitulo19.pdf, Páginas: 4
Documento: capitulo18.pdf, Páginas: 178
Total de páginas en todos los documentos: 1688


In [6]:
import os
from pdf_processing import process_pdf_to_json

# **Paso 1: Configurar la ruta base del proyecto**
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), "../"))
CAPITULOS_DIR = os.path.join(BASE_DIR, "data/capitulos")

# **Paso 2: Obtener la lista de archivos PDF**
pdf_files = [f for f in os.listdir(CAPITULOS_DIR) if f.endswith(".pdf")]

print(f"Archivos PDF encontrados: {pdf_files}")

# **Paso 3: Procesar los PDFs y almacenar los datos en memoria**
json_data_list = []  # Lista para guardar los datos JSON generados en memoria

for pdf_file in pdf_files:
    pdf_path = os.path.join(CAPITULOS_DIR, pdf_file)
    print(f"\nProcesando archivo PDF: {pdf_path}")
    
    try:
        # Procesar el PDF y guardar el resultado en memoria
        json_data = process_pdf_to_json(pdf_path)
        json_data_list.append({
            "file_name": pdf_file,
            "data": json_data
        })
        print(f"Archivo procesado con éxito: {pdf_file}")
    except Exception as e:
        print(f"Error al procesar {pdf_file}: {e}")

# Verifica cuántos archivos fueron procesados
print(f"\nArchivos procesados en memoria: {len(json_data_list)}")

Archivos PDF encontrados: ['capitulo6.pdf', 'capitulo15.pdf', 'capitulo14.pdf', 'capitulo7.pdf', 'capitulo5.pdf', 'capitulo16.pdf', 'capitulo17.pdf', 'capitulo4.pdf', 'capitulo13.pdf', 'capitulo12.pdf', 'capitulo1.pdf', 'capitulo3.pdf', 'capitulo10.pdf', 'capitulo11.pdf', 'capitulo2.pdf', 'capitulo20.pdf', 'capitulo21.pdf', 'capitulo22.pdf', 'capitulo9.pdf', 'capitulo8.pdf', 'capitulo19.pdf', 'capitulo18.pdf']

Procesando archivo PDF: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo6.pdf
Archivo procesado con éxito: capitulo6.pdf

Procesando archivo PDF: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo15.pdf
Archivo procesado con éxito: capitulo15.pdf

Procesando archivo PDF: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo14.pdf
Archivo procesado con éxito: capitulo14.pdf

Procesando archivo PDF: /Users/maximilianocruz/Documents/GitHub/practicos-rag/data/capitulos/capitulo7.pdf
Archivo procesado con

In [7]:
from text_preprocessing.text_preprocessing import preprocess_text

# **Paso 4: Preprocesar el texto de los datos en memoria**
example_original = None
example_processed = None
example_shown = False  # Bandera para mostrar solo un ejemplo

for item in json_data_list:
    file_name = item["file_name"]
    json_data = item["data"]

    try:
        # Obtener el contenido del texto crudo
        raw_text = json_data["capitulos"][0]["articulos"][0]["contenido"]

        # Aplicar preprocesamiento
        processed_text = preprocess_text(raw_text)

        # Mostrar mensaje de éxito inmediatamente
        print(f"Texto del archivo {file_name} procesado con éxito.")

        # Capturar un ejemplo (solo el primero encontrado)
        if not example_shown:
            example_original = raw_text[:500]
            example_processed = processed_text[:500]
            example_shown = True  # Asegurarse de no sobrescribir el ejemplo
    except Exception as e:
        print(f"Error al preprocesar el texto del archivo {file_name}: {e}")

# **Mostrar el ejemplo al final**
if example_shown:
    print("\nEjemplo de preprocesamiento:")
    print(f"Texto original (ejemplo):\n{example_original}...\n")
    print(f"Texto preprocesado (ejemplo):\n{example_processed}...\n")

Texto del archivo capitulo6.pdf procesado con éxito.
Texto del archivo capitulo15.pdf procesado con éxito.
Texto del archivo capitulo14.pdf procesado con éxito.
Texto del archivo capitulo7.pdf procesado con éxito.
Texto del archivo capitulo5.pdf procesado con éxito.
Texto del archivo capitulo16.pdf procesado con éxito.
Texto del archivo capitulo17.pdf procesado con éxito.
Texto del archivo capitulo4.pdf procesado con éxito.
Texto del archivo capitulo13.pdf procesado con éxito.
Texto del archivo capitulo12.pdf procesado con éxito.
Texto del archivo capitulo1.pdf procesado con éxito.
Texto del archivo capitulo3.pdf procesado con éxito.
Texto del archivo capitulo10.pdf procesado con éxito.
Texto del archivo capitulo11.pdf procesado con éxito.
Texto del archivo capitulo2.pdf procesado con éxito.
Texto del archivo capitulo20.pdf procesado con éxito.
Texto del archivo capitulo21.pdf procesado con éxito.
Texto del archivo capitulo22.pdf procesado con éxito.
Texto del archivo capitulo9.pdf pro

In [8]:
from chunking.chunking_hybrid import hybrid_chunking

# **Paso 5: Realizar el chunking desde los textos preprocesados**
total_chunks = 0  # Contador para el total de chunks generados
example_chunk = None  # Variable para guardar un único ejemplo de chunk

for item in json_data_list:
    file_name = item["file_name"]
    json_data = item["data"]

    try:
        # Obtener el contenido del texto crudo
        raw_text = json_data["capitulos"][0]["articulos"][0]["contenido"]

        # Preprocesar el texto
        processed_text = preprocess_text(raw_text)

        # Realizar el chunking
        chunks = hybrid_chunking(processed_text, max_chunk_size=150)

        # Actualizar el total de chunks
        total_chunks += len(chunks)

        # Capturar un ejemplo de chunk si aún no se ha seleccionado
        if example_chunk is None and chunks:
            example_chunk = chunks[0]

        # Indicar cuántos chunks se generaron para este archivo
        print(f"Archivo {file_name}: {len(chunks)} chunks generados.")
    except Exception as e:
        print(f"Error durante el chunking del archivo {file_name}: {e}")

# **Mostrar el total de chunks generados**
print(f"\nTotal de chunks generados en todos los documentos: {total_chunks}")


Archivo capitulo6.pdf: 3182 chunks generados.
Archivo capitulo15.pdf: 1914 chunks generados.
Archivo capitulo14.pdf: 1296 chunks generados.
Archivo capitulo7.pdf: 506 chunks generados.
Archivo capitulo5.pdf: 1691 chunks generados.
Archivo capitulo16.pdf: 4614 chunks generados.
Archivo capitulo17.pdf: 2088 chunks generados.
Archivo capitulo4.pdf: 9540 chunks generados.
Archivo capitulo13.pdf: 702 chunks generados.
Archivo capitulo12.pdf: 2918 chunks generados.
Archivo capitulo1.pdf: 90 chunks generados.
Archivo capitulo3.pdf: 1305 chunks generados.
Archivo capitulo10.pdf: 3856 chunks generados.
Archivo capitulo11.pdf: 1573 chunks generados.
Archivo capitulo2.pdf: 1951 chunks generados.
Archivo capitulo20.pdf: 582 chunks generados.
Archivo capitulo21.pdf: 1532 chunks generados.
Archivo capitulo22.pdf: 90 chunks generados.
Archivo capitulo9.pdf: 6566 chunks generados.
Archivo capitulo8.pdf: 8195 chunks generados.
Archivo capitulo19.pdf: 144 chunks generados.
Archivo capitulo18.pdf: 7077 c

In [9]:
from chunking.chunking_hybrid import hybrid_chunking

# **Paso 6: Obtener los primeros 5 chunks generados**
chunks_list = []  # Lista para almacenar todos los chunks generados

# Generar chunks y almacenarlos en una lista
for item in json_data_list:
    file_name = item["file_name"]
    json_data = item["data"]

    try:
        # Obtener el contenido del texto crudo
        raw_text = json_data["capitulos"][0]["articulos"][0]["contenido"]

        # Preprocesar el texto
        processed_text = preprocess_text(raw_text)

        # Realizar el chunking y acumular los chunks
        chunks = hybrid_chunking(processed_text, max_chunk_size=150)
        chunks_list.extend(chunks)  # Agregar todos los chunks generados a la lista
    except Exception as e:
        print(f"Error durante el chunking del archivo {file_name}: {e}")

# **Mostrar los primeros 5 chunks**
print("\nPrimeros 5 chunks generados:")
for i, chunk in enumerate(chunks_list[:5]):  # Iterar solo sobre los primeros 5 chunks
    print(f"\nChunk {i + 1}:")
    print(f"Tipo: {chunk['type']}")
    print(f"Contenido: {chunk['content'][:200]}...")  # Mostrar solo los primeros 200 caracteres del contenido


Primeros 5 chunks generados:

Chunk 1:
Tipo: narrative
Contenido: ...

Chunk 2:
Tipo: narrative
Contenido: 15
CAPÍTULO VI
ALIMENTOS CÁRNEOS Y AFINES
CARNES DE CONSUMO FRESCAS Y ENVASADAS
Artículo 247 (Resolución Conjunta SPReI y SAV N 12 -E/2017)
Con la denominación genérica de carne, se entiende la parte ...

Chunk 3:
Tipo: narrative
Contenido: Con la misma definición se incluyen a los animales silvestres de caza o criados en cautiverio, pescados, crustáceos, moluscos y otras especies comestibles....

Chunk 4:
Tipo: narrative
Contenido: Por extensión se considera carne al diafragma y músculos de la lengua, no así los músculos de sostén del aparato hioideo, el corazón y el esófago....

Chunk 5:
Tipo: narrative
Contenido: La carne será limpia, sana, debidamente preparada, y comprende a todos los tejidos blandos que rodean al esqueleto, incluyendo su cobertura grasa tendones, vasos, nervios, aponeurosis y todos aquellos...


In [10]:
from embedding import generate_embeddings

# **Paso 7: Generar embeddings para los chunks**
print(f"Generando embeddings para {len(chunks_list)} chunks...")
embeddings_list = generate_embeddings([chunk["content"] for chunk in chunks_list])

# **Paso 8: Crear metadatos para los embeddings**
metadata_list = [{"type": chunk["type"], "content": chunk["content"]} for chunk in chunks_list]

# Verificar las longitudes para asegurarte de que correspondan
if len(embeddings_list) != len(metadata_list):
    raise ValueError("El número de embeddings generados no coincide con el número de metadatos.")
else:
    print("Embeddings y metadatos generados correctamente.")

  from .autonotebook import tqdm as notebook_tqdm


Modelo 'all-MiniLM-L6-v2' cargado correctamente.
Cargando el módulo 'embedding'
Generando embeddings para 61412 chunks...
Generando embeddings para 61412 chunks...


Generando embeddings: 100%|██████████| 61412/61412 [29:19<00:00, 34.91chunk/s]    

Total de embeddings generados: 61412
Embeddings y metadatos generados correctamente.





In [11]:
# Mostrar la cantidad de metadatos generados
print(f"Metadatos generados para {len(metadata_list)} chunks.")

Metadatos generados para 61412 chunks.


In [12]:
from vector_store_client import connect_to_qdrant, insert_embeddings

# **Paso 1: Conectar a Qdrant**
qdrant_client = connect_to_qdrant()
print("Conexión a Qdrant establecida con éxito.")

# **Paso 2: Asegurar que las variables necesarias están definidas**
# index_name: Nombre del índice (ya deberías haberlo definido antes)
if 'index_name' not in globals():
    index_name = "regulacion_alimentaria"  # Nombre del índice en Qdrant

# embeddings_list y metadata_list: Verifica que se hayan generado previamente
if 'embeddings_list' not in globals() or 'metadata_list' not in globals():
    raise ValueError("Las listas de embeddings o metadatos no están definidas. Asegúrate de haber generado estas listas.")

# **Paso 3: Insertar embeddings**
print(f"Insertando embeddings en Qdrant en lotes de 100...")
insert_embeddings(qdrant_client, index_name, embeddings_list, metadata_list, batch_size=100)
print("Embeddings generados e insertados en Qdrant con éxito.")

Conexión a Qdrant establecida con éxito.
Insertando embeddings en Qdrant en lotes de 100...
Lot 1 insertado exitosamente con 100 puntos.
Lot 2 insertado exitosamente con 100 puntos.
Lot 3 insertado exitosamente con 100 puntos.
Lot 4 insertado exitosamente con 100 puntos.
Lot 5 insertado exitosamente con 100 puntos.
Lot 6 insertado exitosamente con 100 puntos.
Lot 7 insertado exitosamente con 100 puntos.
Lot 8 insertado exitosamente con 100 puntos.
Lot 9 insertado exitosamente con 100 puntos.
Lot 10 insertado exitosamente con 100 puntos.
Lot 11 insertado exitosamente con 100 puntos.
Lot 12 insertado exitosamente con 100 puntos.
Lot 13 insertado exitosamente con 100 puntos.
Lot 14 insertado exitosamente con 100 puntos.
Lot 15 insertado exitosamente con 100 puntos.
Lot 16 insertado exitosamente con 100 puntos.
Lot 17 insertado exitosamente con 100 puntos.
Lot 18 insertado exitosamente con 100 puntos.
Lot 19 insertado exitosamente con 100 puntos.
Lot 20 insertado exitosamente con 100 punto

In [13]:
import numpy as np
from embedding import generate_embeddings
from vector_store_client import search_qdrant, format_qdrant_results

# **Paso 1: Definir la consulta**
query = "¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?"

# **Paso 2: Generar el embedding de la consulta**

query_embeddings = generate_embeddings([query])  # Generar embeddings
if not query_embeddings or len(query_embeddings) == 0:
    raise ValueError("No se pudo generar el embedding para la consulta. Verifica la función generate_embeddings.")

query_embedding = query_embeddings[0]  # Acceder al primer embedding si existe
print("Embedding de la consulta generado con éxito.")

# **Paso 3: Realizar la búsqueda en Qdrant**
limit = 5  # Número de resultados a devolver
search_results = search_qdrant(qdrant_client, index_name, query_embedding, limit=limit)

# **Paso 4: Formatear y mostrar los resultados**
print(f"\nResultados de la búsqueda para la consulta: '{query}'")
if search_results:
    format_qdrant_results(query, search_results)  # Usa la función para mostrar resultados de forma ordenada
else:
    print("No se encontraron resultados para la consulta.")

Generando embeddings para 1 chunks...


Generando embeddings: 100%|██████████| 1/1 [00:00<00:00,  3.11chunk/s]


Total de embeddings generados: 1
Embedding de la consulta generado con éxito.

Resultados de la búsqueda para la consulta: '¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?'
Consulta: ¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?

Total de resultados encontrados: 5

--------------------------------------------------------------------------------
ID: 8ca9054a-2576-4472-9011-97b655a83b8e
Puntaje de Similitud (score): 0.7606783
Payload completo:
  Contenido es un diccionario con las siguientes claves:
    type: narrative
    content: Cuando cualquiera de aquellos sea importado, se aplicarán los requeri mientos de este Código; dichas exigencias se considerarán también satisfechas cuando los productos provengan de países que cuenten con niveles de contralor alimentario equiparables a los de la República Argentina a criterio de la Autoridad Sanitaria Nacion al, o cuando utilicen las normas del Codex
Al