In [64]:
import PyPDF2
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from pymongo import MongoClient
from langchain.vectorstores import MongoDBAtlasVectorSearch
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document
from langchain.prompts import ChatPromptTemplate
import fitz

In [23]:
pdf_paths = ["/home/bigdata/eva_1_BDA/PDF/PIMENTON_MAYO.pdf", "/home/bigdata/eva_1_BDA/PDF/recetas.pdf"] 

In [47]:
client = MongoClient("mongodb+srv://carlotaporteiro24:cgpmongoatlas01@cluster0.vrrpq.mongodb.net/") 
db = "vectorstore_Castellano"
collection = "pdf_data"
MONGODB_COLLECTION = client[db][collection]

## Extraer info y dividirla

In [55]:
# Función para extraer texto de un PDF
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)  
    text = ""
    for page in doc:
        text += page.get_text()  
    return text


# Función para dividir el texto en fragmentos de un tamaño adecuado
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]


## Crear embeddings, vectorstore y guardar los datos en mongo Atlas

In [56]:
# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    relevance_score_fn="cosine"  # Usamos la similitud del coseno para la recuperación
)

In [66]:
all_documents = []
# Extraer contenido de los PDFs y dividir el texto en fragmentos
for pdf_path in pdf_paths:
    page_content = extract_text_from_pdf(pdf_path)
    chunks = split_text(page_content)
    print(f"Number of chunks for {pdf_path}: {len(chunks)}")

# Crear los documentos a partir de los fragmentos de texto
documents = [Document(page_content=chunk) for chunk in chunks]
all_documents.extend(documents)

# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(all_documents)
print("Documents added to the vectorstore.")

Number of chunks for /home/bigdata/eva_1_BDA/PDF/PIMENTON_MAYO.pdf: 4
Number of chunks for /home/bigdata/eva_1_BDA/PDF/recetas.pdf: 20
Documents added to the vectorstore.


## Hacer consultas a Mongo Atlas

In [67]:
#Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template="Use the context below to answer the user's question:\n\n{context}\n\nQuestion: {question}\nAnswer:"
)

# Función de recuperación de documentos desde MongoDB usando el vector store
retriever = vector_store.as_retriever()

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)


In [68]:
# Ejemplo de consulta pdf PIMENTON_MAYO
query = "Como se hace el pulpo a la gallega?"
response = qa_chain.invoke(query)
print("Response:", response)

Response: {'query': 'Como se hace el pulpo a la gallega?', 'result': 'Lo siento, pero no tengo información específica sobre una receta o método para hacer "pulpo a la gallega". Sin embargo, puedo sugerirte que es posible que estés pensando en un plato similar llamado "pulpo a feira" o "pulpo a la gallega", que es un plato tradicional de la cocina gallega (en España).\n\nSi ese es el caso, te puedo proporcionar una receta básica para hacer pulpo a feira:\n\nIngredientes:\n\n* 1 pulpo crudo, pelado y cortado en trozos\n* 2 cebollas picadas\n* 3 dientes de ajo picados\n* 1 pimiento rojo picado\n* 1/4 de taza de vino blanco seco\n* 1/4 de taza de caldo de pescado\n* 2 cucharadas de aceite de oliva\n* Sal y pimienta al gusto\n* Perejil fresco picado (opcional)\n\nInstrucciones:\n\n1. En una sartén grande, calienta el aceite de oliva a fuego medio.\n2. Agrega la cebolla, el ajo y el pimiento rojo y cocina hasta que estén suaves.\n3. Añade el pulpo y cocina durante 2-3 minutos, hasta que esté