# Loaders

## Configuracion Inicial

In [1]:
import sys
import os

# Verifica el directorio actual del notebook
print(f"Directorio actual del notebook: {os.getcwd()}")

# Asegúrate de que la ruta relativa a 'src' es correcta
sys.path.append('../src')

# Imprime el sys.path para verificar que 'src' está incluido
print("Rutas en sys.path:")
print("\n".join(sys.path))

Directorio actual del notebook: /Users/maximilianocruz/Documents/GitHub/practicos-rag/notebooks
Rutas en sys.path:
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/site-packages
../src


## Ruta de los Datos

In [2]:
from loaders.loaders import load_pdfs_from_folder

# Ruta de la carpeta que contiene los PDFs
pdf_folder = '../data/capitulos'

## Prueba de Funcionamiento


In [3]:
# Prueba la función load_pdfs_from_folder
documents = load_pdfs_from_folder(pdf_folder)

# Muestra el número de documentos cargados
print(f"Total de documentos cargados: {len(documents)}")

# Inspecciona el contenido del primer documento (si existe)
if documents:
    print("Contenido del primer documento:")
    print(documents[0].page_content[:500])  # Los primeros 500 caracteres
else:
    print("No se cargaron documentos.")


  from cryptography.hazmat.primitives.ciphers.algorithms import AES, ARC4  # type: ignore[import]


Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo6.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo15.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo14.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo7.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo5.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo16.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo17.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo4.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo13.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo12.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo1.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo3.pd

# Prueba Chuncking

In [4]:
# Importar el módulo de chunking
from chunking.chunking import split_text_into_chunks

# Cargar un documento como ejemplo
sample_document = documents[0].page_content  # Usamos el contenido del primer documento

# Dividir el texto en chunks
chunks = split_text_into_chunks(sample_document, chunk_size=500, chunk_overlap=50)

# Mostrar resultados
print(f"Número total de chunks: {len(chunks)}")
print("Primer chunk:")
print(chunks[0])

Número total de chunks: 7
Primer chunk:
15 
 CAPÍTULO VI  
 
ALIMENTOS CÁRNEOS Y AFINES  
 
 
CARNES DE CONSUMO FRESCAS Y ENVASADAS  
 
Artículo 247 (Resolución Conjunta SPReI y SAV N° 12 -E/2017)  
Con la denominación genérica de carne, se entiende la parte comestible de los músculos de 
vacunos, bubalinos, porcinos, ovinos, caprinos, llamas, conejos domésticos, nutrias de criadero, 
pollos, pollas, gallos, gallinas, pavitos, pavitas, pavos, pavas, pat os domésticos, gansos


In [5]:
print("Segundo chunk:")
print(chunks[1])

Segundo chunk:
domésticos y codornices, declarados aptos para la alimentación humana por la inspección 
veterinaria oficial antes y después de la faena.  
Con la misma definición se incluyen a los animales silvestres de caza o criados en cautiverio, 
pescados, crustáceos, moluscos y otras especies comestibles.  
Por extensión se considera carne al diafragma y músculos de la lengua, no así los músculos de 
sostén del aparato hioideo, el corazón y el esófago.


In [6]:
chunk_lengths = [len(chunk) for chunk in chunks]
print(f"Longitudes de los chunks: {chunk_lengths}")

Longitudes de los chunks: [439, 446, 448, 436, 432, 406, 410]


# Prueba Embeddings

In [7]:
from sentence_transformers import SentenceTransformer

# Cargar el modelo preentrenado
model = SentenceTransformer('all-MiniLM-L6-v2')  # Puedes cambiar el modelo según lo que necesites

# Asumiendo que ya tienes los chunks generados en la variable 'chunks'
# Generar embeddings para todos los chunks
embeddings = model.encode(chunks)

# Verificar la cantidad y las dimensiones de los embeddings generados
print(f"Total de embeddings generados: {len(embeddings)}")
print(f"Dimensión del primer embedding: {len(embeddings[0])}")

# Mostrar el primer embedding generado (como ejemplo)
print(embeddings[0])

  from .autonotebook import tqdm as notebook_tqdm


Total de embeddings generados: 7
Dimensión del primer embedding: 384
[-3.07268053e-02  2.31081136e-02  1.47502795e-02 -2.20948812e-02
 -5.50419874e-02  1.61695704e-02  4.24097013e-03  7.03161210e-02
 -4.20954376e-02 -4.02674936e-02  3.89809757e-02 -7.82869980e-02
 -2.96427943e-02 -2.21642610e-02 -8.16780105e-02 -6.02643378e-02
  1.66084860e-02  3.18117887e-02  1.57378837e-02  3.60982008e-02
  1.82124674e-02  2.20728088e-02 -1.77926775e-02  1.05329432e-01
 -4.73682210e-02 -1.89930853e-02 -7.04628006e-02  3.32734101e-02
 -2.03790460e-02 -8.19230825e-02 -4.64547686e-02  8.92048851e-02
  2.55675688e-02 -5.76609857e-02 -1.34823723e-02 -7.32895657e-02
 -4.74498942e-02 -4.19572182e-02  4.75305952e-02  7.57372603e-02
 -3.34649980e-02 -5.67039847e-02 -6.24237284e-02 -4.03096061e-03
  1.13841081e-02 -9.82286930e-02 -1.16269916e-01  6.37466609e-02
  4.53493409e-02 -3.81377749e-02 -5.00159636e-02 -5.05399853e-02
 -5.05890846e-02 -2.68268548e-02 -6.39493251e-03 -9.50408205e-02
 -1.09894782e-01 -4.3

# Generar todos los Chunks

In [8]:
import uuid

# Dividir todos los documentos en chunks
all_chunks = []
for document in documents:
    chunks = split_text_into_chunks(document.page_content, chunk_size=500, chunk_overlap=50)
    all_chunks.extend(chunks)

# Crear una lista de IDs para los embeddings (Usando UUIDs)
ids_list = [str(uuid.uuid4()) for _ in range(len(all_chunks))]  # Generamos un UUID para cada chunk

# Crear metadatos, en este caso el contenido de cada chunk
metadata_list = [{"content": chunk} for chunk in all_chunks]  # Guardamos el contenido de cada chunk como metadato

# Mostrar información sobre los chunks generados
print(f"Total de chunks generados: {len(all_chunks)}")
print(f"Ejemplo de un chunk: {all_chunks[0]}")

Total de chunks generados: 10067
Ejemplo de un chunk: 15 
 CAPÍTULO VI  
 
ALIMENTOS CÁRNEOS Y AFINES  
 
 
CARNES DE CONSUMO FRESCAS Y ENVASADAS  
 
Artículo 247 (Resolución Conjunta SPReI y SAV N° 12 -E/2017)  
Con la denominación genérica de carne, se entiende la parte comestible de los músculos de 
vacunos, bubalinos, porcinos, ovinos, caprinos, llamas, conejos domésticos, nutrias de criadero, 
pollos, pollas, gallos, gallinas, pavitos, pavitas, pavos, pavas, pat os domésticos, gansos


# Generar todos los Embeddings

In [9]:
# Generación de embeddings para los chunks
from sentence_transformers import SentenceTransformer

# Cargar el modelo preentrenado
model = SentenceTransformer('all-MiniLM-L6-v2')

# Generar embeddings para todos los chunks
embeddings_list = model.encode(all_chunks, show_progress_bar=True)

# Verificar la cantidad y las dimensiones de los embeddings generados
print(f"Total de embeddings generados: {len(embeddings_list)}")
print(f"Dimensión del primer embedding: {len(embeddings_list[0])}")

Batches: 100%|██████████| 315/315 [01:25<00:00,  3.67it/s]

Total de embeddings generados: 10067
Dimensión del primer embedding: 384





# Vactor Base - Qdrant

In [11]:
# En el notebook donde quieras usar las funciones de Qdrant
from vector_store_client import connect_to_qdrant, create_qdrant_index, insert_embeddings, search_qdrant, format_qdrant_results

# Usar las funciones de Qdrant
api_url = "TU_URL_DE_QDRANT"  # Sustituye con tu URL real
api_key = "TU_API_KEY"  # Sustituye con tu API Key real
qdrant_client = connect_to_qdrant()

# Crear el índice si no existe
index_name = "regulacion_alimentaria"
dimension = 384
create_qdrant_index(qdrant_client, index_name, dimension)

# Insertar los embeddings
insert_embeddings(qdrant_client, index_name, embeddings_list, metadata_list, batch_size=100)

El índice 'regulacion_alimentaria' ya existe.
Lot 1 insertado exitosamente con 100 puntos.
Lot 2 insertado exitosamente con 100 puntos.
Lot 3 insertado exitosamente con 100 puntos.
Lot 4 insertado exitosamente con 100 puntos.
Lot 5 insertado exitosamente con 100 puntos.
Lot 6 insertado exitosamente con 100 puntos.
Lot 7 insertado exitosamente con 100 puntos.
Lot 8 insertado exitosamente con 100 puntos.
Lot 9 insertado exitosamente con 100 puntos.
Lot 10 insertado exitosamente con 100 puntos.
Lot 11 insertado exitosamente con 100 puntos.
Lot 12 insertado exitosamente con 100 puntos.
Lot 13 insertado exitosamente con 100 puntos.
Lot 14 insertado exitosamente con 100 puntos.
Lot 15 insertado exitosamente con 100 puntos.
Lot 16 insertado exitosamente con 100 puntos.
Lot 17 insertado exitosamente con 100 puntos.
Lot 18 insertado exitosamente con 100 puntos.
Lot 19 insertado exitosamente con 100 puntos.
Lot 20 insertado exitosamente con 100 puntos.
Lot 21 insertado exitosamente con 100 punto

In [12]:
# Realizar una búsqueda
query = "¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?"
query_embedding = model.encode([query])[0]
search_results = search_qdrant(qdrant_client, index_name, query_embedding, limit=5)

# Mostrar resultados (Si es necesario)
format_qdrant_results(query, search_results)

Consulta: ¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?

Total de resultados encontrados: 5

ID: 886665c6-361a-47d7-b951-64365fee8249
Puntaje de Similitud (score): 0.7129024
Contenido relevante: dice:  
 
Toda reglamentación específica a que se refiere la Resolución Grupo Mercado Común N° 47/03 
tendrán únicamente como excepción las previstas por la Autoridad Sanitaria Nacional.  
 
El rotulado de alimentos comprendidos en el Capítulo XVII – Alimentos de régimen o dietéticos 
– del Código Alimentario Argentino, deberá cumplir obligatoriamente las exigencias de la 
presente resolución y aquellas específicas del Código Alimentario Argentino que no sean...
--------------------------------------------------------------------------------
ID: 3d3dff4c-7127-4f21-9753-9529681b1cd1
Puntaje de Similitud (score): 0.7129024
Contenido relevante: dice:  
 
Toda reglamentación específica a que se refiere la Resolución Grupo Mercado Común N° 47/03 
tendrá