# Subida de CVs a la BB.DD. vectorial de Qdrant (colección CVI-1 "chunked")

La elección entre dividir cada documento en chunks y vectorizarlos individualmente o hacer un solo embedding por documento depende tiene ventajas e inconvenientes: 

### 1. Dividir cada documento en chunks y vectorizarlos:
**Ventajas**:
- **Granularidad**: Permite una búsqueda y recuperación más detallada a nivel de contenido específico dentro de los documentos.
- **Manejabilidad del Tamaño del Texto**: Algunos modelos de embedding tienen límites en la longitud del texto que pueden procesar. Dividir en chunks puede ayudar a evitar estos límites.
- **Mejor Comprensión Contextual**: Al vectorizar secciones más pequeñas de texto, el modelo puede captar mejor el contexto específico de esa sección.

**Desventajas**:
- **Complejidad en la Agregación de Resultados**: Si un chunk es identificado como relevante para una consulta, puede requerir trabajo adicional determinar cómo presentar ese chunk en el contexto del documento completo.
- **Mayor Volumen de Datos**: Más chunks significan más vectores para almacenar, indexar y buscar, lo que podría aumentar los requisitos de almacenamiento y el tiempo de consulta.

## Importación de librerías

In [4]:
# GUI and enviroment
import os
from dotenv import load_dotenv

# eat pdfs
from PyPDF2 import PdfReader

#nltk
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize


# embeddings and llms
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
import openai

# vector database
from langchain.vectorstores import Qdrant
from qdrant_client import QdrantClient
import qdrant_client
import json

import re
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter

[nltk_data] Downloading package punkt to /Users/alex/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Definir variables de entorno
Estas variables irán en un archivo .env

In [5]:
# host y API de Qdrant
os.environ['QDRANT_HOST'] = 'https://b345b760-ec57-4c32-8dba-81050366a5fc.europe-west3-0.gcp.cloud.qdrant.io:6333'
os.environ['QDRANT_API_KEY'] = 'u3zkhVlCEOSCFvp7K8ZJ5NJuot764QDKqMpon_HOWByh4FH8yix1TQ'

# API de OpenAI de Alex
os.environ['OPENAI_API_KEY'] = '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'

## Crear cliente en Qdrant
Para interactuar con Qdrant tenemos que crear un cliente

In [6]:
def get_qdrant_client():
    return qdrant_client.QdrantClient(
        os.getenv("QDRANT_HOST"),
        api_key=os.getenv("QDRANT_API_KEY")
    )

get_qdrant_client()

<qdrant_client.qdrant_client.QdrantClient at 0x2804e1c50>

## Crear una collection en Qdrant (solo lo haremos una vez)

In [23]:
# Establecer el nombre de la colección en una variable de entorno
os.environ['QDRANT_COLLECTION_NAME'] = 'CVI-1'

# Configurar los parámetros del vector
# Esto es solo configuración y no crea una nueva colección
#vectors_config = qdrant_client.http.models.VectorParams(
#    size = 1536, # tamaño del vector de OpenAI
#    distance = qdrant_client.http.models.Distance.COSINE
#)

# Las siguientes líneas que crean una nueva colección están comentadas
# para evitar la creación de una nueva colección
#client.create_collection(
#     collection_name = os.getenv('QDRANT_COLLECTION_NAME'),
#     vectors_config = vectors_config,
# )

## Funciones


### Pasar pdf a txt

In [24]:
import os
folder_path = 'data'
print(os.listdir(folder_path))

['30563572.pdf', '57364820.pdf', '29839396.pdf', '46772262.pdf', '14945250.pdf', '14556869.pdf', '25157655.pdf', '70892619.pdf', '17864043.pdf', '11752500.pdf', '27330027.pdf', '34046031.pdf', '20544228.pdf', '12334650.pdf', '16519708.pdf', '19374660.pdf', '23032182.pdf', '94230796.pdf', '29521434.pdf', '24544244.pdf', '16846478.pdf', '24610685.pdf', '37201447.pdf', '29524570.pdf', '78273826.pdf', '12674256.pdf', '22561438.pdf', '34797369.pdf', '19671909.pdf', '15727656.pdf', '17033567.pdf', '21669215.pdf', '27980446.pdf', '19402977.pdf', '36366044.pdf', '14491649.pdf', '11902276.pdf', '83206166.pdf', '29968330.pdf', '28186635.pdf', '17781039.pdf', '21856577.pdf', '49475708.pdf', '37660306.pdf', '34185495.pdf', '25422388.pdf', '22351830.pdf', '49325370.pdf', '22232367.pdf', '66226673.pdf', '23568641.pdf', '30542184.pdf', '11759079.pdf', '31454430.pdf', '74849878.pdf', '59450123.pdf', '39970711.pdf', '23761385.pdf', '25839123.pdf', '38220146.pdf', '29167286.pdf', '32441790.pdf', '306424

In [25]:
def get_pdf_text(pdf_file):
    text = ""
    with open(pdf_file, 'rb') as f:
        pdf_reader = PdfReader(f)
        for page in pdf_reader.pages:
            text += page.extract_text() + "\n"  # Añade un salto de línea al final de cada página

    # Limpieza del texto
    # Reemplaza los caracteres especiales (ajustar según sea necesario)
    text = re.sub(r'ï¼​', '', text)

    # Normalizar el espaciado: reemplaza múltiples espacios con un solo espacio
    text = re.sub(r'\s+', ' ', text)

    # Elimina espacios al principio y al final
    text = text.strip()

    # Opcional: eliminar o procesar encabezados de sección según sea necesario
    text = re.sub(r'Work Experience', '', text)

    return text

### División del documento en Chunks

In [26]:
def get_text_chunks(text, max_chunk_size=1000):
    # Tokeniza el texto en frases
    sentences = sent_tokenize(text)

    # Inicializa variables
    chunks = []
    current_chunk = ""
    for sentence in sentences:
        # Si agregar la siguiente frase excede el tamaño máximo del chunk,
        # agrega el chunk actual a la lista de chunks y comienza uno nuevo
        if len(current_chunk) + len(sentence) > max_chunk_size:
            chunks.append(current_chunk)
            current_chunk = sentence
        else:
            current_chunk += " " + sentence

    # Agregamos el último chunk si no está vacío
    if current_chunk:
        chunks.append(current_chunk)

    return chunks

# Probamos con un CV
text = get_pdf_text('data/10005171.pdf')
chunks = get_text_chunks(text, max_chunk_size=1000)
print(len(chunks))

6


### Inicialización del Vector Store en Qdrant

En Qdrant, un `vector store` es una estructura de datos que se utiliza para almacenar vectores de alta dimensionalidad junto con sus metadatos correspondientes. 

Un `vector store` en Qdrant se utiliza para realizar operaciones de inserción, actualización, búsqueda y eliminación de vectores en una colección. Permite almacenar grandes conjuntos de vectores y sus metadatos asociados de manera eficiente para facilitar la recuperación rápida y precisa de vectores similares en función de consultas de búsqueda.

Las operaciones típicas que se pueden realizar en un `vector store` en Qdrant incluyen:

- Inserción de Vectores: Agregar nuevos vectores junto con sus `etadatos a la colección.
- Actualización de Metadatos: Modificar los metadatos asociados con un vector existente en la colección.
- Búsqueda de Vectores Similares: Encontrar vectores similares a un vector de consulta dado en función de métricas de similitud específicas.
- Eliminación de Vectores: Eliminar vectores y sus metadatos de la colección.

In [7]:
def get_vector_store(client):
    embeddings = OpenAIEmbeddings()
    return Qdrant(
        client=client,
        collection_name=os.getenv("QDRANT_COLLECTION_NAME"),
        embeddings=embeddings,
    )

# Inicializar el cliente de Qdrant
client = qdrant_client.QdrantClient(
    url=os.getenv("QDRANT_HOST"),
    api_key=os.getenv("QDRANT_API_KEY")
)

# Obtener el vector store utilizando el cliente
vector_store = get_vector_store(client)

  warn_deprecated(


### Función Principal (subida de documentos a Qdrant + vectorización)

Vemos cuantos documentos hay en el directorio:

In [29]:
import os

directory_path = "data"
pdf_count = 0

for filename in os.listdir(directory_path):
    if filename.endswith('.pdf'):
        pdf_count += 1

print(f"Hay {pdf_count} archivos PDF en el directorio '{directory_path}'.")


Hay 2484 archivos PDF en el directorio 'data'.


El código procesa archivos PDF en un directorio dado, extrayendo texto y dividiéndolo en trozos más pequeños llamados "chunks". Luego, sube estos chunks al vector store utilizando un vectorizador específico y los asocia con metadatos como el texto original y un identificador único. Esta operación se repite para cada archivo PDF en el directorio, mostrando el progreso en tiempo real mientras los documentos son procesados y sus embeddings son subidos al vector store para su uso posterior en análisis o recuperación de información.

In [31]:
def main():
    directory_path = "data"

    #Inicialización del vector store
    vector_store = get_vector_store(client)

    # Filtra los archivos PDF y obtiene su cantidad total
    pdf_files = [f for f in os.listdir(directory_path) if f.endswith('.pdf')]
    total_files = len(pdf_files)
    processed_files = 0  # Inicializa un contador para los archivos procesados

    for filename in pdf_files:
        pdf_file_path = os.path.join(directory_path, filename)
        raw_text = get_pdf_text(pdf_file_path)
        text_chunks = get_text_chunks(raw_text)

        for chunk in text_chunks:
            # vector_store maneja la creación y subida de embeddings
            point_id = None 
            payload = {"text": chunk} #incluimos como payload el texto del propio chunk

            # Subir el texto al vector store (se asume que maneja los embeddings internamente)
            vector_store.add_texts([chunk], [payload])

        processed_files += 1  # Incrementa el contador de archivos procesados
        
        print(f'\rDocumento {filename} ha sido procesado ({processed_files}/{total_files})', end='', flush=True)

    
    print()

if __name__ == '__main__':
    main()

KeyboardInterrupt: 