# Loaders

## Configuracion Inicial

In [1]:
import sys
import os

# Verifica el directorio actual del notebook
print(f"Directorio actual del notebook: {os.getcwd()}")

# Asegúrate de que la ruta relativa a 'src' es correcta
sys.path.append('../src')

# Imprime el sys.path para verificar que 'src' está incluido
print("Rutas en sys.path:")
print("\n".join(sys.path))

Directorio actual del notebook: /Users/maximilianocruz/Documents/GitHub/practicos-rag/notebooks
Rutas en sys.path:
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python311.zip
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11
/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/lib-dynload

/Users/maximilianocruz/anaconda3/envs/proyecto_aplicado_rag/lib/python3.11/site-packages
../src


## Ruta de los Datos

In [2]:
from loaders.loaders import load_pdfs_from_folder

# Ruta de la carpeta que contiene los PDFs
pdf_folder = '../data/capitulos'

## Prueba de Funcionamiento


In [3]:
# Prueba la función load_pdfs_from_folder
documents = load_pdfs_from_folder(pdf_folder)

# Muestra el número de documentos cargados
print(f"Total de documentos cargados: {len(documents)}")

# Inspecciona el contenido del primer documento (si existe)
if documents:
    print("Contenido del primer documento:")
    print(documents[0].page_content[:500])  # Los primeros 500 caracteres
else:
    print("No se cargaron documentos.")


  from cryptography.hazmat.primitives.ciphers.algorithms import AES, ARC4  # type: ignore[import]


Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo6.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo15.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo14.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo7.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo5.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo16.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo17.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo4.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo13.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo12.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo1.pdf
Se cargó correctamente el archivo con PyPDFLoader: ../data/capitulos/capitulo3.pd

# Prueba Chuncking

In [4]:
# Importar el módulo de chunking
from chunking.chunking import split_text_into_chunks

# Cargar un documento como ejemplo
sample_document = documents[0].page_content  # Usamos el contenido del primer documento

# Dividir el texto en chunks
chunks = split_text_into_chunks(sample_document, chunk_size=500, chunk_overlap=50)

# Mostrar resultados
print(f"Número total de chunks: {len(chunks)}")
print("Primer chunk:")
print(chunks[0])

Número total de chunks: 7
Primer chunk:
15 
 CAPÍTULO VI  
 
ALIMENTOS CÁRNEOS Y AFINES  
 
 
CARNES DE CONSUMO FRESCAS Y ENVASADAS  
 
Artículo 247 (Resolución Conjunta SPReI y SAV N° 12 -E/2017)  
Con la denominación genérica de carne, se entiende la parte comestible de los músculos de 
vacunos, bubalinos, porcinos, ovinos, caprinos, llamas, conejos domésticos, nutrias de criadero, 
pollos, pollas, gallos, gallinas, pavitos, pavitas, pavos, pavas, pat os domésticos, gansos


In [5]:
print("Segundo chunk:")
print(chunks[1])

Segundo chunk:
domésticos y codornices, declarados aptos para la alimentación humana por la inspección 
veterinaria oficial antes y después de la faena.  
Con la misma definición se incluyen a los animales silvestres de caza o criados en cautiverio, 
pescados, crustáceos, moluscos y otras especies comestibles.  
Por extensión se considera carne al diafragma y músculos de la lengua, no así los músculos de 
sostén del aparato hioideo, el corazón y el esófago.


In [6]:
chunk_lengths = [len(chunk) for chunk in chunks]
print(f"Longitudes de los chunks: {chunk_lengths}")

Longitudes de los chunks: [439, 446, 448, 436, 432, 406, 410]


# Prueba Embeddings

In [7]:
# Importar el módulo de embeddings
import importlib
import embedding
importlib.reload(embedding)

from embedding import generate_embeddings

# Generar embeddings
embeddings = generate_embeddings(chunks)

# Validar resultados
print(f"Total de embeddings generados: {len(embeddings)}")
if embeddings:
    print(f"Dimensión del primer embedding: {len(embeddings[0])}")

Cargando el módulo 'embedding'
Cargando el módulo 'embedding'
Total de embeddings generados: 7
Dimensión del primer embedding: 1536


# Generar todos los Chunks

In [8]:
'''
# Dividir todos los documentos en chunks
all_chunks = []
for document in documents:
    chunks = split_text_into_chunks(document.page_content, chunk_size=500, chunk_overlap=50)
    all_chunks.extend(chunks)

# Mostrar información sobre los chunks generados
print(f"Total de chunks generados: {len(all_chunks)}")
print(f"Ejemplo de un chunk: {all_chunks[0]}")
'''

'\n# Dividir todos los documentos en chunks\nall_chunks = []\nfor document in documents:\n    chunks = split_text_into_chunks(document.page_content, chunk_size=500, chunk_overlap=50)\n    all_chunks.extend(chunks)\n\n# Mostrar información sobre los chunks generados\nprint(f"Total de chunks generados: {len(all_chunks)}")\nprint(f"Ejemplo de un chunk: {all_chunks[0]}")\n'

# Generar todos los Embeddings

In [9]:
'''
# Generar embeddings para todos los chunks
embeddings = generate_embeddings(all_chunks)

# Validar resultados
print(f"Total de embeddings generados: {len(embeddings)}")
if embeddings:
    print(f"Dimensión del primer embedding: {len(embeddings[0])}")
    '''

'\n# Generar embeddings para todos los chunks\nembeddings = generate_embeddings(all_chunks)\n\n# Validar resultados\nprint(f"Total de embeddings generados: {len(embeddings)}")\nif embeddings:\n    print(f"Dimensión del primer embedding: {len(embeddings[0])}")\n    '

# Vector Store - Qdrant

## 	Conectar a Qdrant

In [12]:
import requests

# Revisa la conexión a Qdrant
try:
    response = requests.get(f"{qdrant_url}/collections", headers={"Authorization": f"Api-Key {qdrant_api_key}"})
    print(f"Conexión exitosa: {response.status_code}")
    if response.status_code == 200:
        print("Conexión a Qdrant establecida correctamente.")
    else:
        print(f"Error en la respuesta: {response.status_code}")
except requests.exceptions.RequestException as e:
    print(f"Error al intentar conectarse a Qdrant: {e}")

Error al intentar conectarse a Qdrant: HTTPSConnectionPool(host='7477cc74-568f-42b6-a570-368fc3ea633b.us-east4-0.gcp.cloud.qdrant.io', port=443): Max retries exceeded with url: /collections (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x12f1b0590>, 'Connection to 7477cc74-568f-42b6-a570-368fc3ea633b.us-east4-0.gcp.cloud.qdrant.io timed out. (connect timeout=None)'))


In [13]:
qdrant_url = os.getenv("QDRANT_URL")
qdrant_api_key = os.getenv("QDRANT_API_KEY")

print(qdrant_url)
print(qdrant_api_key)

https://7477cc74-568f-42b6-a570-368fc3ea633b.us-east4-0.gcp.cloud.qdrant.io
ec30ce92-71fb-44e8-9604-e7ee7a26602e|R3eYyksNFExqibncNWtdYSb-yptwc6x42EioIj0dvFljqfpY5R_Vkw


# Crear la coleccion

In [11]:
import os
from dotenv import load_dotenv
import requests

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Obtener la URL y la API key de Qdrant desde las variables de entorno
qdrant_url = os.getenv("QDRANT_URL")
qdrant_api_key = os.getenv("QDRANT_API_KEY")

# Verificar la conexión a Qdrant Cloud
try:
    response = requests.get(
        f"{qdrant_url}/collections", 
        headers={"Authorization": f"Api-Key {qdrant_api_key}"},
        timeout=30  # Establecer un tiempo de espera de 30 segundos
    )
    print(f"Conexión exitosa: {response.status_code}")
    if response.status_code == 200:
        print("Conexión a Qdrant establecida correctamente.")
    else:
        print(f"Error en la respuesta: {response.status_code}")
except requests.exceptions.RequestException as e:
    print(f"Error al intentar conectarse a Qdrant: {e}")

Conexión exitosa: 403
Error en la respuesta: 403


In [None]:
# Revisa la conexión a Qdrant
try:
    response = requests.get(f"{qdrant_url}/collections", headers={"Authorization": f"Api-Key {qdrant_api_key}"})
    print(f"Conexión exitosa: {response.status_code}")
    if response.status_code == 200:
        print("Conexión a Qdrant establecida correctamente.")
    else:
        print(f"Error en la respuesta: {response.status_code}")
except requests.exceptions.RequestException as e:
    print(f"Error al intentar conectarse a Qdrant: {e}")

In [None]:
# Crear una colección para almacenar embeddings
collection_name = "document_embeddings"
vector_size = 1536  # Tamaño del vector generado por 'text-embedding-ada-002'

# Conexión a Qdrant
client = connect_qdrant(host="localhost", port=6333)

# Crear colección
create_collection(client, collection_name, vector_size, distance_metric="COSINE")  # Usar "COSINE"

ResponseHandlingException: [Errno 61] Connection refused

In [None]:
from qdrant_client.http.models import Distance

print(list(Distance))

[<Distance.COSINE: 'Cosine'>, <Distance.EUCLID: 'Euclid'>, <Distance.DOT: 'Dot'>, <Distance.MANHATTAN: 'Manhattan'>]


# Insertar embeddings


In [None]:
# Metadatos asociados a los embeddings
payloads = [{"chunk": chunk} for chunk in chunks]

# Insertar embeddings en la colección
insert_embeddings(client, collection_name, embeddings, payloads)

# Realizar una consulta


In [None]:
query_vector = embeddings[0]  # Usa el primer embedding como consulta
results = search_embeddings(client, collection_name, query_vector, top_k=5)

# Mostrar resultados
for result in results:
    print(result)