### InMemoryVectorStore
Implementación de almacén de vectores en memoria.

Utiliza un diccionario y calcula la similitud del coseno para realizar búsquedas usando numpy.

In [3]:
# Importar módulo para interactuar con variables de entorno del sistema operativo
import os
# Importar función para cargar variables de entorno desde un archivo .env
from dotenv import load_dotenv
# Cargar las variables de entorno desde el archivo .env en el directorio actual
load_dotenv()

# Establecer la clave API de OpenAI en las variables de entorno del sistema
# Esto permite que las librerías de OpenAI accedan a la clave automáticamente
os.environ["OPENAI_API_KEY"]=os.getenv("OPENAI_API_KEY")

# Importar la función para inicializar modelos de chat desde LangChain
from langchain.chat_models import init_chat_model

# Inicializar el modelo de chat GPT-4o-mini de OpenAI
# Este es un modelo más económico y rápido de la familia GPT-4
llm=init_chat_model("openai:gpt-4o-mini")
# Mostrar el objeto del modelo inicializado con su configuración
llm

ChatOpenAI(client=<openai.resources.chat.completions.completions.Completions object at 0x0000018051A0E9F0>, async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x0000018051A54830>, root_client=<openai.OpenAI object at 0x000001802590EB10>, root_async_client=<openai.AsyncOpenAI object at 0x0000018051A0EB10>, model_name='gpt-4o-mini', model_kwargs={}, openai_api_key=SecretStr('**********'), stream_usage=True)

In [4]:
# Importar la clase de embeddings de OpenAI desde LangChain
from langchain_openai import OpenAIEmbeddings

# Importar la clase InMemoryVectorStore que almacena vectores en memoria RAM
from langchain_core.vectorstores import InMemoryVectorStore

# Crear una instancia del almacén de vectores en memoria
# Se configura con OpenAIEmbeddings para convertir textos en vectores numéricos
# InMemoryVectorStore guardará todos los vectores en la memoria durante la ejecución
vector_store=InMemoryVectorStore(embedding=OpenAIEmbeddings())

In [6]:
# Importar la clase Document para crear objetos de documento con contenido y metadatos
from langchain_core.documents import Document

# Crear el primer documento: Tweet sobre desayuno
# page_content: el contenido textual del documento
# metadata: información adicional (en este caso, la fuente es un tweet)
document_1 = Document(
    page_content="Desayuné panqueques con chispas de chocolate y huevos revueltos esta mañana.",
    metadata={"source": "tweet"},
)

# Crear el segundo documento: Noticia sobre el clima
# Fuente: news (noticias)
document_2 = Document(
    page_content="El pronóstico del tiempo para mañana es nublado y cubierto, con una máxima de 62 grados.",
    metadata={"source": "news"},
)

# Crear el tercer documento: Tweet sobre un proyecto con LangChain
# Fuente: tweet
document_3 = Document(
    page_content="Construyendo un nuevo proyecto emocionante con LangChain - ¡ven a verlo!",
    metadata={"source": "tweet"},
)

# Crear el cuarto documento: Noticia sobre un robo bancario
# Fuente: news (noticias)
document_4 = Document(
    page_content="Los ladrones asaltaron el banco de la ciudad y robaron 1 millón de dólares en efectivo.",
    metadata={"source": "news"},
)

# Crear el quinto documento: Tweet sobre una película
# Fuente: tweet
document_5 = Document(
    page_content="¡Guau! Esa fue una película increíble. No puedo esperar para verla de nuevo.",
    metadata={"source": "tweet"},
)

# Crear el sexto documento: Artículo web sobre el iPhone
# Fuente: website (sitio web)
document_6 = Document(
    page_content="¿Vale la pena el precio del nuevo iPhone? Lee esta reseña para descubrirlo.",
    metadata={"source": "website"},
)

# Crear el séptimo documento: Artículo web sobre futbolistas
# Fuente: website (sitio web)
document_7 = Document(
    page_content="Los 10 mejores jugadores de fútbol del mundo en este momento.",
    metadata={"source": "website"},
)

# Crear el octavo documento: Tweet sobre LangGraph
# Fuente: tweet
document_8 = Document(
    page_content="¡LangGraph es el mejor framework para construir aplicaciones con estado y agentes!",
    metadata={"source": "tweet"},
)

# Crear el noveno documento: Noticia sobre la bolsa de valores
# Fuente: news (noticias)
document_9 = Document(
    page_content="El mercado de valores cayó 500 puntos hoy debido a temores de una recesión.",
    metadata={"source": "news"},
)

# Crear el décimo documento: Tweet con sentimiento negativo
# Fuente: tweet
document_10 = Document(
    page_content="Tengo el mal presentimiento de que voy a ser eliminado :(",
    metadata={"source": "tweet"},
)

# Crear una lista con todos los documentos para facilitar su procesamiento
# Esta lista se usará para agregar todos los documentos al vector store
documents = [
    document_1,
    document_2,
    document_3,
    document_4,
    document_5,
    document_6,
    document_7,
    document_8,
    document_9,
    document_10,
]

In [7]:
# Mostrar la lista completa de documentos
# Esto permite verificar que todos los documentos se crearon correctamente
documents

[Document(metadata={'source': 'tweet'}, page_content='Desayuné panqueques con chispas de chocolate y huevos revueltos esta mañana.'),
 Document(metadata={'source': 'news'}, page_content='El pronóstico del tiempo para mañana es nublado y cubierto, con una máxima de 62 grados.'),
 Document(metadata={'source': 'tweet'}, page_content='Construyendo un nuevo proyecto emocionante con LangChain - ¡ven a verlo!'),
 Document(metadata={'source': 'news'}, page_content='Los ladrones asaltaron el banco de la ciudad y robaron 1 millón de dólares en efectivo.'),
 Document(metadata={'source': 'tweet'}, page_content='¡Guau! Esa fue una película increíble. No puedo esperar para verla de nuevo.'),
 Document(metadata={'source': 'website'}, page_content='¿Vale la pena el precio del nuevo iPhone? Lee esta reseña para descubrirlo.'),
 Document(metadata={'source': 'website'}, page_content='Los 10 mejores jugadores de fútbol del mundo en este momento.'),
 Document(metadata={'source': 'tweet'}, page_content='¡La

In [8]:
# Agregar todos los documentos al almacén de vectores
# El método add_documents convierte cada documento en un vector usando OpenAI embeddings
# Luego almacena estos vectores en memoria para realizar búsquedas de similaridad
# Retorna una lista de IDs únicos generados automáticamente para cada documento
vector_store.add_documents(documents=documents)

['953c9689-451a-4386-9485-67d9fd11d500',
 '3f11cdda-a94c-4278-a382-3ad81efb7030',
 '1a2d22f9-6a44-4c8c-b190-1da310370c4f',
 '6a640ef1-b3c8-4fbf-8984-2363c7146855',
 '22e14d0f-6cb8-402c-b18c-1e85f8523d85',
 'fcc04198-4b58-4758-b061-9579c60d33cd',
 '6a33b0c8-1977-45bd-9ba8-53cf558f8178',
 'bcae4ce2-8793-4893-80e5-663cdaba4b88',
 '349e7a52-99a5-4219-b1a8-8b79b2e312f0',
 '7370e07d-a9f1-4833-89a9-80e55455933b']

In [9]:
# Realizar una búsqueda de similaridad en el vector store
# La consulta "cómo está el pronóstico del tiempo" se convierte en un vector
# Luego se comparan todos los vectores almacenados usando similitud del coseno
# Por defecto, retorna los 4 documentos más similares a la consulta
vector_store.similarity_search("cómo está el pronóstico del tiempo")

[Document(id='3f11cdda-a94c-4278-a382-3ad81efb7030', metadata={'source': 'news'}, page_content='El pronóstico del tiempo para mañana es nublado y cubierto, con una máxima de 62 grados.'),
 Document(id='7370e07d-a9f1-4833-89a9-80e55455933b', metadata={'source': 'tweet'}, page_content='Tengo el mal presentimiento de que voy a ser eliminado :('),
 Document(id='953c9689-451a-4386-9485-67d9fd11d500', metadata={'source': 'tweet'}, page_content='Desayuné panqueques con chispas de chocolate y huevos revueltos esta mañana.'),
 Document(id='349e7a52-99a5-4219-b1a8-8b79b2e312f0', metadata={'source': 'news'}, page_content='El mercado de valores cayó 500 puntos hoy debido a temores de una recesión.')]

In [10]:
# Realizar una búsqueda de similaridad limitando los resultados
# El parámetro k=2 indica que solo queremos los 2 documentos más similares
# Esto es útil cuando solo necesitamos los resultados más relevantes
vector_store.similarity_search("cómo está el pronóstico del tiempo",k=2)

[Document(id='3f11cdda-a94c-4278-a382-3ad81efb7030', metadata={'source': 'news'}, page_content='El pronóstico del tiempo para mañana es nublado y cubierto, con una máxima de 62 grados.'),
 Document(id='7370e07d-a9f1-4833-89a9-80e55455933b', metadata={'source': 'tweet'}, page_content='Tengo el mal presentimiento de que voy a ser eliminado :(')]

In [11]:
### Convertir el vectorstore a retriever

# Convertir el vector store en un retriever (recuperador)
# Un retriever es una interfaz estándar en LangChain para recuperar documentos
# El parámetro search_kwargs permite configurar opciones de búsqueda
# En este caso, k=2 indica que el retriever retornará los 2 documentos más similares
retriever=vector_store.as_retriever(search_kwargs={"k":2})

# Mostrar el objeto retriever con su configuración
retriever

VectorStoreRetriever(tags=['InMemoryVectorStore', 'OpenAIEmbeddings'], vectorstore=<langchain_core.vectorstores.in_memory.InMemoryVectorStore object at 0x0000018051A560F0>, search_kwargs={'k': 2})

In [12]:
## Invocar el retriever

# Usar el método invoke para recuperar documentos similares a la consulta
# invoke es el método estándar en LangChain para ejecutar componentes de una cadena
# En este caso, busca y retorna los 2 documentos más similares a la consulta sobre el clima
# El retriever realiza automáticamente la conversión de la consulta a vector y la búsqueda
retriever.invoke("cómo está el pronóstico del tiempo")

[Document(id='3f11cdda-a94c-4278-a382-3ad81efb7030', metadata={'source': 'news'}, page_content='El pronóstico del tiempo para mañana es nublado y cubierto, con una máxima de 62 grados.'),
 Document(id='7370e07d-a9f1-4833-89a9-80e55455933b', metadata={'source': 'tweet'}, page_content='Tengo el mal presentimiento de que voy a ser eliminado :(')]