4. RAG contra Mongo Atlas

# Rag contra MongoAtlas en inglés

In [9]:
import requests
from bs4 import BeautifulSoup
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from langchain.docstore.document import Document
from pymongo import MongoClient
from langchain.vectorstores import MongoDBAtlasVectorSearch

# Inicializa el cliente de MongoDB
MONGODB_ATLAS_CLUSTER_URI = "mongodb+srv://camilamarinovicgarrido:changeme@cluster0.lgurp.mongodb.net/"
client = MongoClient(MONGODB_ATLAS_CLUSTER_URI)

DB_NAME = "vectorstore"  # Cambia este valor al nombre de tu base de datos
COLLECTION_NAME = "documentos"  # Cambia este valor al nombre de tu colección
ATLAS_VECTOR_SEARCH_INDEX_NAME = "noticias_index"

# Referencia a la colección de MongoDB
MONGODB_COLLECTION = client[DB_NAME][COLLECTION_NAME]

# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",  
)

def extract_text_from_url(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    return soup.get_text()

def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]

# Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Procesar la URL y dividir el contenido en fragmentos
url = "https://english.elpais.com/usa/2024-12-16/trump-says-hell-deport-criminal-migrants-first-but-who-is-he-referring-to.html"
page_content = extract_text_from_url(url)

chunks = split_text(page_content)
print(f"Number of chunks: {len(chunks)}")

# Crear los documentos a partir de los fragmentos de texto
documents = [Document(page_content=chunk) for chunk in chunks]

# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(documents)
print("Documents added to the vectorstore.")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template="Use the context below to answer the user's question:\n\n{context}\n\nQuestion: {question}\nAnswer:"
)

# Función de recuperación de documentos desde MongoDB usando el vector store
retriever = vector_store.as_retriever()

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

# Realizar una consulta y obtener una respuesta
query = "Does it talk about Trump?"
response = qa_chain.invoke(query)
print("Response:", response)


Number of chunks: 29
Documents added to the vectorstore.
Response: {'query': 'Does it talk about Trump?', 'result': 'No, it does not.'}


# Rag contra MongoAtlas en Castellano

In [19]:
import requests
import fitz  # PyMuPDF para leer PDFs
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from langchain.docstore.document import Document
from pymongo import MongoClient
from langchain.vectorstores import MongoDBAtlasVectorSearch

# Inicializa el cliente de MongoDB
MONGODB_ATLAS_CLUSTER_URI = "mongodb+srv://camilamarinovicgarrido:changeme@cluster0.lgurp.mongodb.net/"
client = MongoClient(MONGODB_ATLAS_CLUSTER_URI)

DB_NAME = "vectorstore"  
COLLECTION_NAME = "documentos_ciberseguridad"  
ATLAS_VECTOR_SEARCH_INDEX_NAME = "noticias_index"

# Referencia a la colección de MongoDB
MONGODB_COLLECTION = client[DB_NAME][COLLECTION_NAME]

# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",  # Usamos la similitud del coseno para la recuperación
)

# Función para extraer texto de un PDF
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)  # Abrir el archivo PDF
    text = ""
    for page in doc:
        text += page.get_text()  # Extraer texto de cada página
    return text

# Función para dividir el texto en fragmentos de un tamaño adecuado
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]

# Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Ruta al archivo PDF (actualiza con la ruta real del archivo PDF en tu sistema)
pdf_path = "ciberseguridad.pdf"

# Extraer contenido del PDF
page_content = extract_text_from_pdf(pdf_path)

# Dividir el texto extraído en fragmentos
chunks = split_text(page_content)
print(f"Number of chunks: {len(chunks)}")

# Crear los documentos a partir de los fragmentos de texto
documents = [Document(page_content=chunk) for chunk in chunks]

# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(documents)
print("Documents added to the vectorstore.")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template="Use the context below to answer the user's question:\n\n{context}\n\nQuestion: {question}\nAnswer:"
)

# Función de recuperación de documentos desde MongoDB usando el vector store
retriever = vector_store.as_retriever()

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

# Realizar una consulta y obtener una respuesta
query = "¿habla de ciberseguridad?"
response = qa_chain.invoke(query)
print("Response:", response)


Number of chunks: 85
Documents added to the vectorstore.
Response: {'query': '¿habla de ciberseguridad?', 'result': 'Sí, el contexto menciona la ciberseguridad.'}
