# Subida de CVs a la BB.DD. vectorial de Qdrant (colección DOCUMENT-EMBEDDING / 1 CV - 1 embedding)

La elección entre dividir cada documento en chunks y vectorizarlos individualmente o hacer un solo embedding por documento depende tiene ventajas e inconvenientes: 

### 2. Hacer un embedding por cada documento:
**Ventajas**:
- **Simplicidad**: Cada documento es representado por un único vector, simplificando el proceso de indexación y búsqueda.
- **Integridad del Documento**: Útil cuando la relevancia de una consulta depende del documento completo y no de secciones específicas.
- **Eficiencia de Almacenamiento**: Menos vectores para almacenar y gestionar.

**Desventajas**:
- **Pérdida de Detalles**: Información detallada y contextual puede perderse al condensar todo el documento en un solo vector.
- **Limitaciones de Tamaño de Texto**: Si los documentos son muy largos, puede que no se capturen bien con un solo embedding, especialmente si el modelo tiene restricciones de longitud de entrada.

## Instalaciones previas

In [None]:
!pip install langchain qdrant_client openai tiktoken PyPDF2 python-dotenv nltk



Collecting langchain
  Downloading langchain-0.1.5-py3-none-any.whl (806 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m806.7/806.7 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting qdrant_client
  Downloading qdrant_client-1.7.3-py3-none-any.whl (206 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m206.3/206.3 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting openai
  Downloading openai-1.11.1-py3-none-any.whl (226 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m226.1/226.1 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting tiktoken
  Downloading tiktoken-0.5.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m15.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6

## Importación de librerías

In [None]:
# GUI and enviroment
import os
from dotenv import load_dotenv

# eat pdfs
from PyPDF2 import PdfReader

#nltk
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize


# embeddings and llms
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
import openai

# vector database
from langchain.vectorstores import Qdrant
from qdrant_client import QdrantClient
import qdrant_client
import json

import re
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Variables de entorno
Estas variables irán en un archivo .env

In [None]:
# host y API de Qdrant
os.environ['QDRANT_HOST'] = 'https://b345b760-ec57-4c32-8dba-81050366a5fc.europe-west3-0.gcp.cloud.qdrant.io:6333'
os.environ['QDRANT_API_KEY'] = 'u3zkhVlCEOSCFvp7K8ZJ5NJuot764QDKqMpon_HOWByh4FH8yix1TQ'

# API de OpenAI
os.environ['OPENAI_API_KEY'] = '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'

# Cargamos las variables de entorno
#load_dotenv() # en esta libreta no es necesario, si lo sería en VS Code, ya que tendriamos las APIs en un archivo .env por separado de nuestro script principal

## Crear cliente en Qdrant
Para interactuar con Qdrant tenemos que crear un cliente

In [None]:
def get_qdrant_client():
    return qdrant_client.QdrantClient(
        os.getenv("QDRANT_HOST"),
        api_key=os.getenv("QDRANT_API_KEY")
    )

In [None]:
get_qdrant_client()

<qdrant_client.qdrant_client.QdrantClient at 0x7bab4401d960>

## Crear una collection en Qdrant (solo 1 vez)

## Funciones

### Pasar pdf a txt

In [None]:
from PyPDF2 import PdfReader
import re

def get_pdf_text(pdf_file):
    text = ""
    try:
        with open(pdf_file, 'rb') as f:
            pdf_reader = PdfReader(f)
            for page in pdf_reader.pages:
                page_text = page.extract_text()
                if page_text:
                    text += page_text + "\n"

        # Limpieza del texto
        text = re.sub(r'ï¼​', '', text)  # Reemplaza caracteres especiales
        text = re.sub(r'\s+', ' ', text)  # Normaliza el espaciado
        text = text.strip()  # Elimina espacios al principio y al final
        text = re.sub(r'Work Experience', '', text)  # Opcional: procesa encabezados específicos
    except Exception as e:  # Captura cualquier excepción genérica al leer el PDF
        print(f"Error al leer {pdf_file}: {e}")
    return text

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
path_file = '/content/drive/MyDrive/MBIT/TFM/data/10005171.pdf'
text = get_pdf_text(path_file)
print(text)

MEDIA ACTIVITIES SPECIALIST Summary Multi-Tasking Media Relations Results-oriented Strategic Initiatives Event Planning Writer & Editor Manager/Supervisor Flexibility Adaptable Highlights Greatly improved media coverage of press conferences and other events on campus Increased the frequency of newspaper, radio and television interviews featuring Chattanooga State administrators, faculty and staff Hosted popular television show that focused on campus and community events (1997-2004) Commissioned by local State Representative to produce a historical documentary on African American in the Tennessee Legislature from Reconstruction to Modern Times (2004) Created on-site Spanish language classes for Emergency Room personnel in local hospitals when Spanish speaking population began to expand in the area (1995) Accomplishments Led Chattanooga State to receive National Awards, the Bronze Paragon Award in 2012 from the National Council for Marketing and Public Relations (NCMPR) for Degrees That 

In [None]:
import os
folder_path = '/content/drive/MyDrive/MBIT/TFM/data/'
print(os.listdir(folder_path))

['26961846.pdf', '86209934.pdf', '86549455.pdf', '17658471.pdf', '28005884.pdf', '19936735.pdf', '20574232.pdf', '81011612.pdf', '39855211.pdf', '19161572.pdf', '27152464.pdf', '20880935.pdf', '25038571.pdf', '22706174.pdf', '11005406.pdf', '17576030.pdf', '11441764.pdf', '19612167.pdf', '17307206.pdf', '29998869.pdf', '32954522.pdf', '26167298.pdf', '25330083.pdf', '12526702.pdf', '14106638.pdf', '19053815.pdf', '25678238.pdf', '15353911.pdf', '30864828.pdf', '93653247.pdf', '20705888(2).pdf', '78016758.pdf', '14743911.pdf', '95519832.pdf', '20565486.pdf', '32985311.pdf', '40883703.pdf', '23810469.pdf', '62071407.pdf', '38220146.pdf', '61634281.pdf', '26942552.pdf', '19147603.pdf', '12938389.pdf', '15281412.pdf', '31909493.pdf', '28326441.pdf', '34051710.pdf', '21178545.pdf', '21512769.pdf', '13569152.pdf', '15011085.pdf', '29147100.pdf', '38565119.pdf', '21238396(2).pdf', '13586069.pdf', '24854026.pdf', '14346702.pdf', '49127329.pdf', '37058472.pdf', '73075521.pdf', '30288581.pdf', '

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

### Inicialización del vector store

In [None]:
# deberia quitar esta celda creo

def get_vector_store():
  #Creamos un cliente para interactuar con Qdrant
  client = qdrant_client.QdrantClient(
      url = os.getenv('QDRANT_HOST'),
      api_key = os.getenv('QDRANT_API_KEY')
  )
  #Definimos como serán los embeddings
  embeddings = OpenAIEmbeddings()

  #Inicializamos un objeto Qdrant
  vector_store = Qdrant(
      client = client,
      collection_name = os.getenv('QDRANT_COLLECTION_NAME'),
      embeddings = embeddings
  )

  return vector_store

### Función principal

In [None]:
import os

directory_path = "/content/drive/MyDrive/MBIT/TFM/data"
pdf_count = 0

for filename in os.listdir(directory_path):
    if filename.endswith('.pdf'):
        pdf_count += 1

print(f"Hay {pdf_count} archivos PDF en el directorio '{directory_path}'.")


Hay 2524 archivos PDF en el directorio '/content/drive/MyDrive/MBIT/TFM/data'.


Procesamiento de PDFs y subida de archivos a Qdrant (NO EJECUTAR SI YA ESTÁN SUBIDOS)

In [None]:
def main():
    directory_path = "/content/drive/MyDrive/MBIT/TFM/data"

    vector_store = get_vector_store()

    # Filtra los archivos PDF y obtiene su cantidad total
    pdf_files = [f for f in os.listdir(directory_path) if f.endswith('.pdf')]
    total_files = len(pdf_files)
    processed_files = 0  # Inicializa un contador para los archivos procesados

    for filename in pdf_files:
        pdf_file_path = os.path.join(directory_path, filename)
        raw_text = get_pdf_text(pdf_file_path)
        text_chunks = get_text_chunks(raw_text)

        for chunk in text_chunks:
            # Se asume que vector_store maneja la creación y subida de embeddings
            point_id = None  # Puedes definir cómo asignar un ID a cada punto
            payload = {"text": chunk}  # Puedes incluir el texto original o cualquier otra información relevante

            # Subir el texto al vector store (se asume que maneja los embeddings internamente)
            vector_store.add_texts([chunk], [payload])

        processed_files += 1  # Incrementa el contador de archivos procesados
        # Usa \r al inicio y end='' para sobrescribir la misma línea
        print(f'\rDocumento {filename} ha sido procesado ({processed_files}/{total_files})', end='', flush=True)

    # Añade un salto de línea al final para que cualquier salida posterior comience en una nueva línea
    print()

if __name__ == '__main__':
    main()

In [None]:
vector_store = get_vector_store()

## Crear nueva colección en Qdrant para subir embeddings de documentos

In [None]:
# Establecer el nombre de la colección en una variable de entorno
os.environ['QDRANT_COLLECTION_NAME_2'] = 'DOCUMENT-EMBEDDINGS'

# Configurar los parámetros del vector
# Esto es solo configuración y no crea una nueva colección
vectors_config = qdrant_client.http.models.VectorParams(
    size = 1536, # tamaño del vector de OpenAI
    distance = qdrant_client.http.models.Distance.COSINE
)

# Las siguientes líneas que crean una nueva colección están comentadas
# para evitar la creación de una nueva colección
client.create_collection(
     collection_name = os.getenv('QDRANT_COLLECTION_NAME_2'),
     vectors_config = vectors_config,
)

True

In [None]:
def get_vector_store_2():
  #Creamos un cliente para interactuar con Qdrant
  client = qdrant_client.QdrantClient(
      url = os.getenv('QDRANT_HOST'),
      api_key = os.getenv('QDRANT_API_KEY')
  )
  #Definimos como serán los embeddings
  embeddings = OpenAIEmbeddings()

  #Inicializamos un objeto Qdrant
  vector_store_2 = Qdrant(
      client = client,
      collection_name = os.getenv('QDRANT_COLLECTION_NAME_2'),
      embeddings = embeddings
  )

  return vector_store_2

In [None]:
directory_path = "/content/drive/MyDrive/MBIT/TFM/data"

In [None]:
vector_store_2 = get_vector_store_2()

In [None]:
def process_and_upload_documents(directory_path, vector_store_2):
    pdf_files = [f for f in os.listdir(directory_path) if f.endswith('.pdf')]
    total_files = len(pdf_files)
    processed_files = 0  # Contador de archivos procesados

    for filename in pdf_files:
        pdf_file_path = os.path.join(directory_path, filename)
        text = get_pdf_text(pdf_file_path)  # Extrae el texto completo del documento PDF

        # Aquí asumimos que `vector_store_2` puede manejar la generación y subida de embeddings
        # directamente desde el texto completo del documento.
        # La función específica para añadir el texto y generar el embedding no está clara en tu descripción,
        # por lo que utilizaré `add_texts` como un placeholder.
        # Deberías reemplazar esto con la llamada y parámetros correctos según tu implementación.
        payload = {"filename": filename}  # Puedes ajustar este payload según lo que necesites almacenar junto al embedding
        vector_store_2.add_texts([text], [payload])  # Asume una función que maneje la generación y subida de embeddings

        processed_files += 1
        print(f'\rDocumento {filename} ha sido procesado ({processed_files}/{total_files})', end='', flush=True)

    print("\nTodos los documentos han sido procesados y subidos a Qdrant.")

In [None]:
process_and_upload_documents(directory_path, vector_store_2)

Documento 86209934.pdf ha sido procesado (2/2524)Error al leer /content/drive/MyDrive/MBIT/TFM/data/86549455.pdf: Cannot read an empty file
Documento 30713796.pdf ha sido procesado (2524/2524)
Todos los documentos han sido procesados y subidos a Qdrant.


In [None]:
qa_embedding = RetrievalQA.from_chain_type(
    llm = OpenAI(),
    chain_type = 'stuff',
    retriever = vector_store_2.as_retriever()
)

In [None]:
query = "Give me candidates with experience in accountant?"

response = qa.run(query)

print(response)

 Here are three potential candidates with experience in accounting:

1. Highlights CPA candidate (passed in 2013) Experienced manager Analytical reasoning Government contracting experience Full-cycle accounting Familiar with multiple accounting packages Comfortable working with teams of management and line employees Accomplishments Built accounting functions, policies, and systems from the ground up of a spin-off/startup firm. Managed accounting and engineering functions of a small, company from inception to sale. Passed CPA exam in the state of Maryland.

2. ACCOUNTANT Professional Profile Certified Accountant with more than 10 years experience working with company financial statements. Vast experience in preparing tax returns. Ability to critically review financial statements Highly motivated manager with excellent administrative, organizational and communication skills. Reliable person with more than 20 years work experience. Highlights Professional Accountant Tax Auditing Proficien