# Loaders

## Configuracion Inicial

In [1]:
import sys
import os

# Verifica el directorio actual del notebook
print(f"Directorio actual del notebook: {os.getcwd()}")

# Asegúrate de que la ruta relativa a 'src' es correcta
sys.path.append('../src')

# Imprime el sys.path para verificar que 'src' está incluido
print("Rutas en sys.path:")
print("\n".join(sys.path))

Directorio actual del notebook: /Users/maximilianocruz/Documents/GitHub/practicos-rag/notebooks
Rutas en sys.path:
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/site-packages
../src


## Ruta de los Datos

In [2]:
from loaders.loaders import load_pdfs_from_folder

# Ruta de la carpeta que contiene los PDFs
pdf_folder = '../data/capitulos'

## Prueba de Funcionamiento


In [3]:
# Prueba la función load_pdfs_from_folder
documents = load_pdfs_from_folder(pdf_folder)

# Muestra el número de documentos cargados
print(f"Total de documentos cargados: {len(documents)}")

# Inspecciona el contenido del primer documento (si existe)
if documents:
    print("Contenido del primer documento:")
    print(documents[0].page_content[:500])  # Los primeros 500 caracteres
else:
    print("No se cargaron documentos.")


  from cryptography.hazmat.primitives.ciphers.algorithms import AES, ARC4  # type: ignore[import]


Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo6.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo15.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo14.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo7.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo5.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo16.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo17.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo4.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo13.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo12.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo1.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo3.pd

# Prueba Chuncking

In [4]:
# Importar el módulo de chunking
from chunking.chunking import split_text_into_chunks

# Cargar un documento como ejemplo
sample_document = documents[0].page_content  # Usamos el contenido del primer documento

# Dividir el texto en chunks
chunks = split_text_into_chunks(sample_document, chunk_size=500, chunk_overlap=50)

# Mostrar resultados
print(f"Número total de chunks: {len(chunks)}")
print("Primer chunk:")
print(chunks[0])

Número total de chunks: 7
Primer chunk:
15 
 CAPÍTULO VI  
 
ALIMENTOS CÁRNEOS Y AFINES  
 
 
CARNES DE CONSUMO FRESCAS Y ENVASADAS  
 
Artículo 247 (Resolución Conjunta SPReI y SAV N° 12 -E/2017)  
Con la denominación genérica de carne, se entiende la parte comestible de los músculos de 
vacunos, bubalinos, porcinos, ovinos, caprinos, llamas, conejos domésticos, nutrias de criadero, 
pollos, pollas, gallos, gallinas, pavitos, pavitas, pavos, pavas, pat os domésticos, gansos


In [5]:
print("Segundo chunk:")
print(chunks[1])

Segundo chunk:
domésticos y codornices, declarados aptos para la alimentación humana por la inspección 
veterinaria oficial antes y después de la faena.  
Con la misma definición se incluyen a los animales silvestres de caza o criados en cautiverio, 
pescados, crustáceos, moluscos y otras especies comestibles.  
Por extensión se considera carne al diafragma y músculos de la lengua, no así los músculos de 
sostén del aparato hioideo, el corazón y el esófago.


In [6]:
chunk_lengths = [len(chunk) for chunk in chunks]
print(f"Longitudes de los chunks: {chunk_lengths}")

Longitudes de los chunks: [439, 446, 448, 436, 432, 406, 410]


# Prueba Embeddings

In [7]:
from sentence_transformers import SentenceTransformer

# Cargar el modelo preentrenado
model = SentenceTransformer('all-MiniLM-L6-v2')  # Puedes cambiar el modelo según lo que necesites

# Asumiendo que ya tienes los chunks generados en la variable 'chunks'
# Generar embeddings para todos los chunks
embeddings = model.encode(chunks)

# Verificar la cantidad y las dimensiones de los embeddings generados
print(f"Total de embeddings generados: {len(embeddings)}")
print(f"Dimensión del primer embedding: {len(embeddings[0])}")

# Mostrar el primer embedding generado (como ejemplo)
print(embeddings[0])

  from .autonotebook import tqdm as notebook_tqdm


Total de embeddings generados: 7
Dimensión del primer embedding: 384
[-3.07268053e-02  2.31081136e-02  1.47502795e-02 -2.20948812e-02
 -5.50419874e-02  1.61695704e-02  4.24097013e-03  7.03161210e-02
 -4.20954376e-02 -4.02674936e-02  3.89809757e-02 -7.82869980e-02
 -2.96427943e-02 -2.21642610e-02 -8.16780105e-02 -6.02643378e-02
  1.66084860e-02  3.18117887e-02  1.57378837e-02  3.60982008e-02
  1.82124674e-02  2.20728088e-02 -1.77926775e-02  1.05329432e-01
 -4.73682210e-02 -1.89930853e-02 -7.04628006e-02  3.32734101e-02
 -2.03790460e-02 -8.19230825e-02 -4.64547686e-02  8.92048851e-02
  2.55675688e-02 -5.76609857e-02 -1.34823723e-02 -7.32895657e-02
 -4.74498942e-02 -4.19572182e-02  4.75305952e-02  7.57372603e-02
 -3.34649980e-02 -5.67039847e-02 -6.24237284e-02 -4.03096061e-03
  1.13841081e-02 -9.82286930e-02 -1.16269916e-01  6.37466609e-02
  4.53493409e-02 -3.81377749e-02 -5.00159636e-02 -5.05399853e-02
 -5.05890846e-02 -2.68268548e-02 -6.39493251e-03 -9.50408205e-02
 -1.09894782e-01 -4.3

# Generar todos los Chunks

In [35]:
# Dividir todos los documentos en chunks
all_chunks = []
for document in documents:
    chunks = split_text_into_chunks(document.page_content, chunk_size=500, chunk_overlap=50)
    all_chunks.extend(chunks)

# Crear una lista de IDs para los embeddings
ids_list = [f"chunk_{i}" for i in range(len(all_chunks))]  # Usamos un identificador único para cada chunk

# Crear metadatos, en este caso el contenido de cada chunk
metadata_list = [{"content": chunk} for chunk in all_chunks]  # Guardamos el contenido de cada chunk como metadato

# Mostrar información sobre los chunks generados
print(f"Total de chunks generados: {len(all_chunks)}")
print(f"Ejemplo de un chunk: {all_chunks[0]}")


Total de chunks generados: 10067
Ejemplo de un chunk: 15 
 CAPÍTULO VI  
 
ALIMENTOS CÁRNEOS Y AFINES  
 
 
CARNES DE CONSUMO FRESCAS Y ENVASADAS  
 
Artículo 247 (Resolución Conjunta SPReI y SAV N° 12 -E/2017)  
Con la denominación genérica de carne, se entiende la parte comestible de los músculos de 
vacunos, bubalinos, porcinos, ovinos, caprinos, llamas, conejos domésticos, nutrias de criadero, 
pollos, pollas, gallos, gallinas, pavitos, pavitas, pavos, pavas, pat os domésticos, gansos


# Generar todos los Embeddings

In [22]:
from sentence_transformers import SentenceTransformer

# Cargar el modelo preentrenado (puedes cambiar el modelo según tus necesidades)
model = SentenceTransformer('all-MiniLM-L6-v2')

# Asumiendo que 'all_chunks' contiene todos los chunks generados
# Generar embeddings para todos los chunks
embeddings_list = model.encode(all_chunks, show_progress_bar=True)  # 'show_progress_bar' para ver el progreso

# Verificar la cantidad y las dimensiones de los embeddings generados
print(f"Total de embeddings generados: {len(embeddings_list)}")
print(f"Dimensión del primer embedding: {len(embeddings_list[0])}")

# Mostrar el primer embedding generado (como ejemplo)
print(embeddings_list[0])

Batches: 100%|██████████| 315/315 [01:21<00:00,  3.88it/s]

Total de embeddings generados: 10067
Dimensión del primer embedding: 384
[-3.07268053e-02  2.31081136e-02  1.47502795e-02 -2.20948812e-02
 -5.50419874e-02  1.61695704e-02  4.24097013e-03  7.03161210e-02
 -4.20954376e-02 -4.02674936e-02  3.89809757e-02 -7.82869980e-02
 -2.96427943e-02 -2.21642610e-02 -8.16780105e-02 -6.02643378e-02
  1.66084860e-02  3.18117887e-02  1.57378837e-02  3.60982008e-02
  1.82124674e-02  2.20728088e-02 -1.77926775e-02  1.05329432e-01
 -4.73682210e-02 -1.89930853e-02 -7.04628006e-02  3.32734101e-02
 -2.03790460e-02 -8.19230825e-02 -4.64547686e-02  8.92048851e-02
  2.55675688e-02 -5.76609857e-02 -1.34823723e-02 -7.32895657e-02
 -4.74498942e-02 -4.19572182e-02  4.75305952e-02  7.57372603e-02
 -3.34649980e-02 -5.67039847e-02 -6.24237284e-02 -4.03096061e-03
  1.13841081e-02 -9.82286930e-02 -1.16269916e-01  6.37466609e-02
  4.53493409e-02 -3.81377749e-02 -5.00159636e-02 -5.05399853e-02
 -5.05890846e-02 -2.68268548e-02 -6.39493251e-03 -9.50408205e-02
 -1.09894782e-01 




# Vactor Base - Pinecone

## Inicializacion del Cliente de Pinecone


In [23]:
import os
from dotenv import load_dotenv
from pinecone import Pinecone, ServerlessSpec

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Obtener la API Key desde las variables de entorno
api_key = os.getenv("PINECONE_API_KEY")

# Crear una instancia de la clase Pinecone
pc = Pinecone(api_key=api_key)

# Verificar si el índice existe, si no, crearlo
index_name = "proyecto-aplicado-rag"
if index_name not in pc.list_indexes().names():
    pc.create_index(
        name=index_name,
        dimension=384,  # Usar la dimensión correcta del embedding
        metric='cosine',  # Cambia el tipo de métrica si lo necesitas
        spec=ServerlessSpec(
            cloud='aws',  # O 'gcp' si usas Google Cloud
            region='us-east-1'  # Ajusta la región si es necesario
        )
    )

# Conectar al índice
index = pc.Index(index_name)

print("Conexión exitosa a Pinecone.")

Conexión exitosa a Pinecone.


## Insertar los Embeddings en el Indice


In [36]:
# Límite de número de vectores por solicitud (1000 vectores)
MAX_VECTORS_PER_BATCH = 1000

# Crear lotes de embeddings, asegurándonos de no superar los 1000 vectores por lote
batches = [embeddings_list[i:i + MAX_VECTORS_PER_BATCH] for i in range(0, len(embeddings_list), MAX_VECTORS_PER_BATCH)]

# Crear los IDs correspondientes para cada lote
id_batches = [ids_list[i:i + MAX_VECTORS_PER_BATCH] for i in range(0, len(ids_list), MAX_VECTORS_PER_BATCH)]

# Insertar los embeddings en lotes
for i, batch in enumerate(batches):
    batch_ids = id_batches[i]
    batch_embeddings = batch

    # Insertar el lote en Pinecone
    try:
        # Convertir zip a lista de tuplas para asegurarse de que Pinecone recibe el formato correcto
        index.upsert(
            vectors=list(zip(batch_ids, batch_embeddings, metadata_list[i:i + MAX_VECTORS_PER_BATCH]))  # Incluimos metadatos aquí
        )
        print(f"Total de {len(batch_ids)} embeddings insertados en el índice (lote {i + 1}/{len(batches)}).")
    except Exception as e:
        print(f"Error al insertar el lote {i + 1}: {str(e)}")

print("Todos los embeddings se han insertado exitosamente.")

Total de 1000 embeddings insertados en el índice (lote 1/11).
Total de 1000 embeddings insertados en el índice (lote 2/11).
Total de 1000 embeddings insertados en el índice (lote 3/11).
Total de 1000 embeddings insertados en el índice (lote 4/11).
Total de 1000 embeddings insertados en el índice (lote 5/11).
Total de 1000 embeddings insertados en el índice (lote 6/11).
Total de 1000 embeddings insertados en el índice (lote 7/11).
Total de 1000 embeddings insertados en el índice (lote 8/11).
Total de 1000 embeddings insertados en el índice (lote 9/11).
Total de 1000 embeddings insertados en el índice (lote 10/11).
Total de 67 embeddings insertados en el índice (lote 11/11).
Todos los embeddings se han insertado exitosamente.


# Realizar Consultas en el Indice Pinecone (Busquedas de Similaridad)


In [38]:
# Suponiendo que 'query' es el texto o embedding que deseas consultar
query = "¿Qué requisitos deben cumplir los alimentos para ser etiquetados correctamente en Argentina?"

# Convertir la consulta en un embedding
query_embedding = model.encode([query])[0]

# Convertir el embedding a lista (esto es necesario para que Pinecone lo procese)
query_embedding = query_embedding.tolist()

# Realizar la búsqueda en Pinecone
result = index.query(
    vector=query_embedding,  # El embedding de la consulta
    top_k=5,  # Número de resultados más cercanos
    include_metadata=True  # Incluir los metadatos si tienes información adicional
)

# Mostrar los resultados de forma más legible
for match in result['matches']:
    print(f"ID: {match['id']}")
    print(f"Relevancia (score): {match['score']}")
    print(f"Contenido relevante: {match['metadata']['content']}\n")

# Mostrar los resultados completos
print(f"Top 5 resultados más similares a la consulta: {result['matches']}")

ID: chunk_1316
Relevancia (score): 0.712902427
Contenido relevante: 735 
 Artículo 342  
Se entiende por Burzot en cuero, el embutido cocido, elaborado con la pasta del "burzot" 
embutida en bolsitas de cuero de cerdo y cocida a temperatura adecuada.  
 
 
Artículo 343 - (Resolución Conjunta RESFC -2018 -1-APN-SRYGS#MSN Nº1/2018)  
[Se otorga a las empresas, a partir del 25 de septiembre de 2018, un plazo de 
DIECIOCHO (18) meses para su adecuación]  
Con el nombre genérico de Morcilla, se entiende el embutido cocido, elaborado sobre la base de

ID: chunk_9005
Relevancia (score): 0.68735677
Contenido relevante: n=5, c=0, 
ausencia en 65 g  ISO 13136  
USDA -FSIS  
 
(1) O su versión más actualizada  
(2) E. coli  productor de toxina Shiga de los serogrupos: O145, O121, O26, O111 y O103. Se considerarán 
sólo aislamientos de los mencionados serogrupos positivos para los genes stx y eae.  
Podrán investigarse otros microorganismos cuando las circunstancias lo hicieran necesario.  
 
 
Ar