# PDF Based RAG

In [1]:
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

In [2]:
# Configurar la clave de API de OpenAI
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_KEY")

# Cargar el PDF
loader = PyPDFLoader("certifications.pdf")
documents = loader.load()

# Dividir el texto en fragmentos
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

# Crear una base de datos vectorial
vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())

Ignoring wrong pointing object 6 0 (offset 0)
Ignoring wrong pointing object 11 0 (offset 0)
  vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())


In [3]:
# Configurar el modelo de lenguaje
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())

# Realizar una consulta
query = "¿Qué certificaciones se mencionan en el documento?"
result = qa_chain.invoke(query)

print("Pregunta:", query)
print("Respuesta:", result)

Pregunta: ¿Qué certificaciones se mencionan en el documento?
Respuesta: {'query': '¿Qué certificaciones se mencionan en el documento?', 'result': 'Las certificaciones mencionadas en el documento son las siguientes:\n\n1. AWS Certified AI Practitioner\n2. JavaScript Certification'}
