# Librerias

In [54]:
from pymongo import MongoClient
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_mongodb import MongoDBAtlasVectorSearch
from langchain.docstore.document import Document
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from pymongo import MongoClient
from pymongo.errors import OperationFailure
from langchain.prompts import ChatPromptTemplate
from langchain_ollama.chat_models import ChatOllama
from langchain_core.runnables import RunnableLambda, RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# Conexión a Mongo Atlas

In [55]:
client = MongoClient("mongodb+srv://vitoesmoris:1234@cluster0.kdeu0.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")

# Variables de la BD
database = 'data_rag'
collection = client["data_rag"]["rag_collection"]
ATLAS_VECTOR_SEARCH_INDEX_NAME='index'

# Lectura de pdfs

In [56]:
pdf_files = ['naturaleza-yo.pdf']
all_documents = []

for document in pdf_files:
    loader = PyPDFLoader(document) # Carga el documento
    data = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=20)    # Divide el texto en chunks
    documents = text_splitter.split_documents(data)
    all_documents.extend(documents)

# Procesado de datos en vectores

In [57]:
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/LaBSE")

vector_store = MongoDBAtlasVectorSearch(
    embedding=embeddings,
    collection=collection,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",
)

vector_store.add_documents(all_documents)

retriever = vector_store.as_retriever()


# Creación de índice de búsqueda vectorial

In [58]:
try:
    vector_store.create_vector_search_index(dimensions=384)
except OperationFailure as e:
    if e.code == 68:
        print(f"El índice '{ATLAS_VECTOR_SEARCH_INDEX_NAME}' ya existe.")
    else:
        print(f"Error al crear el índice: {e}")

El índice 'index' ya existe.


# Modelo de lenguaje (LLM)

In [59]:
template = """Responde en base al contexto:
{context}

Pregunta: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

# Local LLM: Se configura el modelo llama3.2 para generar respuestas de manera local
ollama_llm = "llama3.2"
model_local = ChatOllama(model=ollama_llm)

# Chain Se construye un pipeline que pasa el contexto desde el retriever
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model_local
    | StrOutputParser()
)

# Respuestas

In [60]:
chain.invoke("Qué otro nombre tiene Manuel?")

'No tengo información específica sobre el nombre alternativo de una persona llamada Manuel. ¿Podrías proporcionar más contexto o detalles sobre la persona a la que te refieres?'

In [None]:
chain.invoke("Qué pasa al final de la historia?")