In [206]:
import PyPDF2
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from pymongo import MongoClient
from langchain_mongodb import MongoDBAtlasVectorSearch
from pymongo.errors import OperationFailure
from langchain.docstore.document import Document
from langchain.prompts import ChatPromptTemplate
import fitz

In [207]:
pdf_paths = ["/home/bigdata/eva_1_BDA/PDF/PIMENTON_MAYO.pdf", "/home/bigdata/eva_1_BDA/PDF/recetas.pdf"] 

In [208]:
client = MongoClient("mongodb+srv://nombreUsuario:password@cluster0.vrrpq.mongodb.net/") 
db = "vectorstore_Castellano"
collection = "pdf_data"
MONGODB_COLLECTION = client[db][collection]
ATLAS_VECTOR_SEARCH_INDEX_NAME = "i"

## Extraer info y dividirla

In [209]:
# Función para extraer texto de un PDF
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)  
    text = ""
    for page in doc:
        text += page.get_text()  
    return text


# Función para dividir el texto en fragmentos de un tamaño adecuado
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]

# Función que extrae y divide el texto de cada pdf y después junta toda la info 
def extract_and_split_pdfs(pdf_paths):
    all_chunks = []
    
    for pdf_path in pdf_paths:
        page_content = extract_text_from_pdf(pdf_path) 
        chunks = split_text(page_content)  
        print(f"Número de particiones en {pdf_path}: {len(chunks)}")
        all_chunks.extend(chunks)
    return all_chunks

## Crear embeddings, vectorstore y guardar los datos en mongo Atlas

In [210]:
def guardar_documentos_vectorstore(chunks, vector_store):
    # Crear los documentos a partir de los fragmentos de texto
    documents = [Document(page_content=chunk) for chunk in chunks]
    
    # Insertar los documentos en el vector store de MongoDB Atlas
    vector_store.add_documents(documents)
    print("Documents añadidos al vectorstore.")

In [211]:
# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vectorstore = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine" 
)

# Intentar crear el índice, capturando el error si ya existe
try:
    vectorstore.create_vector_search_index(dimensions=384)
except OperationFailure as e:
    if e.code == 68:  # Duplicate Index error
        print(f"El índice '{ATLAS_VECTOR_SEARCH_INDEX_NAME}' ya existe. Omitiendo la creación del índice.")
    else:
        print(f"Error al crear el índice: {e}")



chunks = extract_and_split_pdfs(pdf_paths)

guardar_documentos_vectorstore(chunks, vectorstore)

El índice 'i' ya existe. Omitiendo la creación del índice.
Número de particiones en /home/bigdata/eva_1_BDA/PDF/PIMENTON_MAYO.pdf: 4
Número de particiones en /home/bigdata/eva_1_BDA/PDF/recetas.pdf: 20
Documents añadidos al vectorstore.


## Hacer consultas a Mongo Atlas

In [212]:
#Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template= "Use el contexto proporcionado en los siguientes PDFs para responder a la pregunta del usuario:"
        "\n\n{context}\n\nPregunta: {question}\nRespuesta:"
)

# Función para realizar una consulta al vector store
def realizar_consulta(vectorstore, consulta):
    retriever = vectorstore.as_retriever()
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever, chain_type_kwargs={"prompt": prompt})
    respuesta = qa_chain.run(consulta)
    return respuesta

In [213]:
# Ejemplo de consulta pdf PIMENTON_MAYO
consulta = "Ingredientes para patitas de cordero a la riojana"
respuesta = realizar_consulta(vectorstore, consulta)
print(f"Respuesta: {respuesta}")

  respuesta = qa_chain.run(consulta)


Respuesta: Según el PDF proporcionado, los ingredientes para las Patitas de cordero a la riojana son:

- 1 Kgr. de patitas de cordero
- 1 cebolla
- 1/2 puerro
- 1/2 zanahoria
- Unos granos de pimienta negra
- 2 cucharadas de aceite
- 50 gr. de chorizo riojano
- 50 gr. de bacón, o panceta curada
