In [2]:
from pymongo import MongoClient
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_mongodb import MongoDBAtlasVectorSearch
from langchain.docstore.document import Document
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from pymongo import MongoClient
from langchain_mongodb import MongoDBAtlasVectorSearch
from pymongo.errors import OperationFailure
from langchain.prompts import ChatPromptTemplate


In [3]:
# Connect to your Atlas cluster
client = MongoClient("mongodb+srv://admin:admin@rag.tmi5z.mongodb.net/?retryWrites=true&w=majority&appName=RAG")
database = 'rag_db'
collection = client["rag_db"]["rag_collec"]
ATLAS_VECTOR_SEARCH_INDEX_NAME='index'


In [4]:


pdf_files = ["documents/pruebaLLM.pdf","documents/pruebaLLM2.pdf", "documents/MartinScorsese.pdf"]  # Agrega la lista de archivos PDF


all_documents = []

for document in pdf_files:
    loader = PyPDFLoader(document) # Carga el documento
    data = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=20)    # Divide el texto en chunks
    documents = text_splitter.split_documents(data)
    all_documents.extend(documents)

print(f"Se cargaron y dividieron {len(all_documents)} fragmentos de texto.")


Se cargaron y dividieron 220 fragmentos de texto.


In [5]:
# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

vector_store = MongoDBAtlasVectorSearch(
    embedding=embeddings,
    collection=collection,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",
)

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(all_documents)
print("Documents añadidos al vectorstore.")

Documents añadidos al vectorstore.


In [7]:
# Intentar crear el índice, capturando el error si ya existe
try:
    vector_store.create_vector_search_index(dimensions=384) # 384 por los embeddings
except OperationFailure as e:
    if e.code == 68:  # Duplicate Index error
        print(f"El índice '{ATLAS_VECTOR_SEARCH_INDEX_NAME}' ya existe. Omitiendo la creación del índice.")
    else:
        print(f"Error al crear el índice: {e}")

El índice 'index' ya existe. Omitiendo la creación del índice.


In [8]:
#Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template= "Use el contexto proporcionado en los siguientes PDFs para responder a la pregunta del usuario:"
        "\n\n{context}\n\nPregunta: {question}\nRespuesta:"
)

# Función para realizar una consulta al vector store
def realizar_consulta(vectorstore, consulta):
    retriever = vectorstore.as_retriever()
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, chain_type_kwargs={"prompt": prompt})
    respuesta = qa_chain.run(consulta)
    return respuesta


In [12]:
# Ejemplo de consulta pdf PIMENTON_MAYO
consulta = "color favorito de Juan(pruebaLLM2.pdf)"
respuesta = realizar_consulta(vector_store, consulta)
print(f"Respuesta: {respuesta}")


Respuesta: El color favorito de Juan es amarillo.
