## Version Chroma

In [2]:
import PyPDF2
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_core.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from langchain.docstore.document import Document
from pymongo import MongoClient
from langchain.vectorstores import MongoDBAtlasVectorSearch


In [4]:
# Inicializa el cliente de MongoDB
MONGODB_ATLAS_CLUSTER_URI = "mongodb+srv://carideyanezalexia:changeme@cluster0.xmaru.mongodb.net/"
client = MongoClient(MONGODB_ATLAS_CLUSTER_URI)

DB_NAME = "vectorstore"  # Cambia este valor al nombre de tu base de datos
COLLECTION_NAME = "pdf"  # Cambia este valor al nombre de tu colección
ATLAS_VECTOR_SEARCH_INDEX_NAME = "g20_summit_index"

# Referencia a la colección de MongoDB
MONGODB_COLLECTION = client[DB_NAME][COLLECTION_NAME]

# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",  # Usamos la similitud del coseno para la recuperación
)

  vector_store = MongoDBAtlasVectorSearch(


In [5]:
def extract_text_from_pdf(pdf_path):
    with open(pdf_path, "rb") as file:
        reader = PyPDF2.PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
    return text
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]


In [6]:
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")  

In [9]:
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",  # Usamos la similitud del coseno para la recuperación
)


In [10]:
pdf_path = "PDF.pdf"

page_content = extract_text_from_pdf(pdf_path)

chunks = split_text(page_content)
print(f"Number of chunks: {len(chunks)}")


Number of chunks: 57


In [12]:
# Crear los documentos a partir de los fragmentos de texto
documents = [Document(page_content=chunk) for chunk in chunks]

# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(documents)
print("Documents added to the vectorstore.")


Documents added to the vectorstore.


In [13]:
prompt = ChatPromptTemplate.from_template(
    template="Usa el contexto a continuación para responder la pregunta del usuario:\n\n{context}\n\nPregunta: {question}\nRespuesta:"
)


In [16]:
# Función de recuperación de documentos desde MongoDB usando el vector store
retriever = vector_store.as_retriever()

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

In [17]:
query = "¿Cuál es el tema principal del documento?"
response = qa_chain.run(query)
print("Respuesta:", response)


  response = qa_chain.run(query)


Respuesta: No tengo información sobre el contexto. Por favor proporciona más detalles o un fragmento del texto para que pueda ayudarte con tu pregunta.


## Version MongoAtlas

In [7]:
import PyPDF2
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM
from langchain.chains import RetrievalQA
from langchain.docstore.document import Document
from pymongo import MongoClient
from langchain_mongodb import MongoDBAtlasVectorSearch
from pymongo.errors import OperationFailure


# Inicializa el cliente de MongoDB
MONGODB_ATLAS_CLUSTER_URI = "mongodb+srv://carideyanezalexia:changeme@cluster0.xmaru.mongodb.net/"
client = MongoClient(MONGODB_ATLAS_CLUSTER_URI)

DB_NAME = "vectorstore"  # Nombre de la base de datos en MongoDB
COLLECTION_NAME = "pdf"  # Nombre de la colección donde se guardarán los documentos
ATLAS_VECTOR_SEARCH_INDEX_NAME = "noticias_index"  # Nombre del índice en MongoDB Atlas

# Referencia a la colección de MongoDB
MONGODB_COLLECTION = client[DB_NAME][COLLECTION_NAME]

# Inicializa los embeddings de HuggingFace
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Configuración de MongoDB Atlas Vector Search
vector_store = MongoDBAtlasVectorSearch(
    collection=MONGODB_COLLECTION,
    embedding=embeddings,
    index_name=ATLAS_VECTOR_SEARCH_INDEX_NAME,
    relevance_score_fn="cosine",  # Usamos la similitud del coseno para la recuperación
)

# Intentar crear el índice, capturando el error si ya existe
try:
    vector_store.create_vector_search_index(dimensions=384)
    print("Vector search index created.")
except OperationFailure as e:
    if e.code == 68:  # Duplicate Index error
        print(f"El índice '{ATLAS_VECTOR_SEARCH_INDEX_NAME}' ya existe. Omitiendo la creación del índice.")
    else:
        print(f"Error al crear el índice: {e}")

def extract_text_from_pdf(pdf_path):
    with open(pdf_path, "rb") as file:
        reader = PyPDF2.PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
    return text
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]

# Función para dividir el texto en fragmentos de un tamaño adecuado
def split_text(text, chunk_size=500):
    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]

# Modelo LLM
llm = OllamaLLM(model="llama3.2", server_url="http://localhost:11434")

# Ruta al archivo PDF (actualiza con la ruta real del archivo PDF en tu sistema)
pdf_path = "PDF.pdf"

# Extraer contenido del PDF
page_content = extract_text_from_pdf(pdf_path)

# Dividir el texto extraído en fragmentos
chunks = split_text(page_content)
print(f"Number of chunks: {len(chunks)}")

# Crear los documentos a partir de los fragmentos de texto
documents = [Document(page_content=chunk) for chunk in chunks]

# Insertar los documentos en el vector store de MongoDB Atlas
vector_store.add_documents(documents)
print("Documents added to the vectorstore.")

# Crear el prompt para la cadena de preguntas y respuestas
prompt = ChatPromptTemplate.from_template(
    template="Use the context below to answer the user's question:\n\n{context}\n\nQuestion: {question}\nAnswer:"
)

# Función de recuperación de documentos desde MongoDB usando el vector store
retriever = vector_store.as_retriever()

# Crear la cadena de preguntas y respuestas
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": prompt}
)

# Realizar una consulta y obtener una respuesta
query = "¿Cual es el titulo?"
response = qa_chain.run(query)
print("Response:", response)


El índice 'noticias_index' ya existe. Omitiendo la creación del índice.
Number of chunks: 57
Documents added to the vectorstore.
Response: No hay suficiente información para determinar el título específico, pero puedo sugerir algunas posibilidades:

1. "La piratería como recurso nobiliario" (si la introducción se refiere a la historia de la piratería en Inglaterra)
2. "El desarrollo del hierro dulce" (si la descripción de las fraguas y el proceso de producción es el centro del texto)
3. "La relación entre innovación y reconocimiento en Inglaterra durante la Edad Moderna" (si el contexto se centra en cómo la innovación científica era reconocida y premiada en Inglaterra)

Sin embargo, no hay suficiente información para determinar con certeza el título correcto.
