<a href="https://colab.research.google.com/github/gforconi/UTNIA2025/blob/main/NLP_3_langchain_conversaciones_rag_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# LangChain paso a paso: conversaci√≥n, memoria y RAG

Este notebook muestra una **evoluci√≥n progresiva** del uso de LangChain en tres etapas:

1. **Conversaci√≥n simple**: un ejemplo b√°sico con un LLM.
2. **Conversaci√≥n con memoria (BufferMemory)**: extendemos el ejemplo para mantener historial.
3. **Conversaci√≥n con RAG**: cargamos documentos, creamos un √≠ndice vectorial (Chroma) y consultamos con **conversational RAG**.

> **Requisitos**: Python 3.10+ y una clave de API de OpenAI en la variable de entorno `OPENAI_API_KEY`.


## 0) Instalaci√≥n y configuraci√≥n


### (Opcional) Usar modelo local con Ollama en lugar de OpenAI
Si quer√©s correr **local**, activ√° `USE_OLLAMA = True` y asegurate de tener `ollama` corriendo en `http://localhost:11434`.


In [None]:

# Selector de proveedor LLM: OpenAI (default) u Ollama (local)
USE_OLLAMA = False  # ‚Üê cambi√° a True para usar Ollama local

from langchain_openai import ChatOpenAI
try:
    if USE_OLLAMA:
        from langchain_ollama import ChatOllama
        llm_factory = lambda: ChatOllama(model="llama3", temperature=0.1)
    else:
        llm_factory = lambda: ChatOpenAI(model="gpt-4o-mini", temperature=0.1)
    print("Proveedor listo:", "Ollama" if USE_OLLAMA else "OpenAI")
except Exception as e:
    raise RuntimeError("Error al configurar el proveedor LLM. ¬øInstalaste 'langchain-ollama' si USE_OLLAMA=True?") from e


In [None]:

# ‚ú≥Ô∏è Instala dependencias (ejecuta esta celda)
# Sugerencia: usa un entorno virtual (venv/conda) antes de instalar.
!pip install -U langchain langchain-openai langchain-community langchain-text-splitters chromadb pypdf tiktoken
# Opcional: FAISS en lugar de Chroma
# !pip install faiss-cpu


Collecting langchain
  Using cached langchain-0.3.27-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.32-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.29-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-text-splitters
  Downloading langchain_text_splitters-0.3.11-py3-none-any.whl.metadata (1.8 kB)
Collecting chromadb
  Downloading chromadb-1.0.20-cp39-abi3-macosx_11_0_arm64.whl.metadata (7.3 kB)
Collecting pypdf
  Downloading pypdf-6.0.0-py3-none-any.whl.metadata (7.1 kB)
Collecting tiktoken
  Using cached tiktoken-0.11.0-cp312-cp312-macosx_11_0_arm64.whl.metadata (6.7 kB)
Collecting langchain-core<1.0.0,>=0.3.72 (from langchain)
  Downloading langchain_core-0.3.75-py3-none-any.whl.metadata (5.7 kB)
Collecting langsmith>=0.1.17 (from langchain)
  Downloading langsmith-0.4.23-py3-none-any.whl.metadata (14 kB)
Collecting pydantic<3.0.0,>=2.7.4 (from langchain)
  Using cached 

In [None]:

# üîê Configura tu clave de OpenAI
import os

# Opci√≥n A (recomendada): exporta la variable en tu sistema antes de abrir el notebook:
#   Linux/Mac: export OPENAI_API_KEY="tu_api_key"
#   Windows (PowerShell): setx OPENAI_API_KEY "tu_api_key"
#
# Opci√≥n B: establece la clave directamente aqu√≠ (no recomendado para producci√≥n):
# os.environ["OPENAI_API_KEY"] = "tu_api_key"

# Opci√≥n B
os.environ["OPENAI_API_KEY"] = "tu_api_key_aqui"

if not os.getenv("OPENAI_API_KEY"):
    print("‚ö†Ô∏è No se encontr√≥ OPENAI_API_KEY en el entorno. Config√∫rala antes de continuar.")
else:
    print("‚úÖ OPENAI_API_KEY detectada.")


‚úÖ OPENAI_API_KEY detectada.



## 1) Conversaci√≥n simple con LangChain

En esta primera secci√≥n creamos una mini **pipeline** con:
- `ChatPromptTemplate` ‚Üí define el prompt.
- `ChatOpenAI` ‚Üí el modelo de chat.
- `StrOutputParser` ‚Üí convierte la respuesta a `str` para imprimir f√°cilmente.

La **LCEL (LangChain Expression Language)** permite conectar componentes con el operador `|`.


In [None]:

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# Modelo de chat (elige el que prefieras; gpt-4o-mini es r√°pido y econ√≥mico)
# model = ChatOpenAI(model="gpt-4o-mini", temperature=1)
model = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Prompt de sistema + entrada del usuario
prompt = ChatPromptTemplate.from_messages([
    ("system", "Eres un asistente √∫til y conciso. Responde en espa√±ol."),
    ("human", "{input}")
])

# Construimos la cadena: prompt -> modelo -> parser de string
simple_chain = prompt | model | StrOutputParser()

# üëá Prueba r√°pida
respuesta = simple_chain.invoke({"input": "Hola, ¬øqui√©n eres y qu√© puedes hacer?"})
print(respuesta)


Hola, soy un asistente virtual dise√±ado para ayudarte con informaci√≥n y responder a tus preguntas. Puedo ofrecerte datos, consejos, explicaciones sobre diversos temas y m√°s. ¬øEn qu√© puedo ayudarte hoy?



**Qu√© observar**  
- `invoke(...)` ejecuta la cadena de principio a fin.  
- Cambia `temperature` para controlar la creatividad.  
- Modifica el texto de `system` para ajustar el "rol" del asistente.


### Temperature

Con `temperature = 1`

In [None]:
respuesta = simple_chain.invoke({"input": "Que tal esta la clase de Inteligencia Artificial hoy?"})
print(respuesta)

No tengo informaci√≥n en tiempo real, pero puedo ayudarte con conceptos, temas y preguntas sobre la clase de Inteligencia Artificial. ¬øQu√© aspecto espec√≠fico te gustar√≠a conocer?


In [None]:
respuesta = simple_chain.invoke({"input": "Que tal esta la clase de Inteligencia Artificial hoy?"})
print(respuesta)

No tengo acceso a informaci√≥n en tiempo real, pero generalmente las clases de Inteligencia Artificial se centran en temas como el aprendizaje autom√°tico, redes neuronales, procesamiento de lenguaje natural y √©tica en IA. Si quieres saber sobre un tema espec√≠fico, dime y con gusto te ayudo.


Con `temperature = 0`

In [None]:
respuesta = simple_chain.invoke({"input": "Que tal esta la clase de Inteligencia Artificial hoy?"})
print(respuesta)

No tengo acceso a informaci√≥n en tiempo real, pero generalmente las clases de Inteligencia Artificial suelen ser muy interesantes y abarcan temas como aprendizaje autom√°tico, redes neuronales y procesamiento de lenguaje natural. ¬øTe gustar√≠a saber algo espec√≠fico sobre el tema?


In [None]:
respuesta = simple_chain.invoke({"input": "Que tal esta la clase de Inteligencia Artificial hoy?"})
print(respuesta)

No tengo acceso a informaci√≥n en tiempo real, pero generalmente las clases de Inteligencia Artificial suelen ser muy interesantes y abarcan temas como aprendizaje autom√°tico, redes neuronales y procesamiento de lenguaje natural. ¬øTe gustar√≠a saber algo espec√≠fico sobre el tema?


`temperature = 0.0`

El modelo es **determinista**: casi siempre devuelve la misma respuesta para la misma entrada.
√ötil cuando busc√°s **precisi√≥n** y consistencia (ej. generar SQL, c√≥digo, respuestas factuales).

**Valores bajos (0.1 ‚Äì 0.3)**

El modelo var√≠a un poco sus respuestas, pero sigue siendo bastante confiable.
Ideal para **chatbots serios**, res√∫menes o asistencia t√©cnica.

**Valores medios (0.5 ‚Äì 0.7)**

Las respuestas son m√°s variadas, con sin√≥nimos, estilos distintos o explicaciones alternativas.
√ötil en contextos de **escritura creativa** o **brainstorming**.

**Valores altos (0.8 ‚Äì 1.0 o m√°s)**

El modelo se vuelve **muy creativo y arriesgado**, pudiendo inventar cosas o desviarse del tema.
Puede servir para poes√≠a, storytelling, generaci√≥n de ideas ‚Äúlocas‚Äù.
Pero en tareas t√©cnicas, aumenta la probabilidad de errores.


## 2) Conversaci√≥n con memoria (ConversationBufferMemory)

Ahora extendemos el ejemplo para **recordar el historial** de la charla usando `ConversationBufferMemory` y `ConversationChain`.

> **Nota**: `ConversationBufferMemory` est√° **deprecado** en LangChain (se mantendr√° hasta la versi√≥n 1.0). Sigue siendo √∫til para aprender; para proyectos nuevos, LangChain recomienda usar `RunnableWithMessageHistory` o enfoques basados en **LCEL** (los ver√°s en la secci√≥n 3).

**Objetivo**: que el bot entienda referencias como ‚Äúeso‚Äù, ‚Äúlo anterior‚Äù, ‚Äúella/√©l‚Äù, etc.


In [None]:

from langchain_openai import ChatOpenAI
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2)

# Guardamos TODO el historial de mensajes en memoria
memory = ConversationBufferMemory(return_messages=True)

# La ConversationChain une LLM + memoria
conversation = ConversationChain(llm=llm, memory=memory, verbose=True)

# üó£Ô∏è Di√°logo de ejemplo
print("Usuario: Hola, soy Ana y me gusta Python.")
out1 = conversation.invoke("Hola, soy Ana y me gusta Python.")
print("Asistente:", out1["response"])

print("\nUsuario: ¬øQu√© lenguaje dije que me gustaba?")
out2 = conversation.invoke("¬øQu√© lenguaje dije que me gustaba?")
print("Asistente:", out2["response"])

# Puedes inspeccionar el buffer de memoria
print("\n--- Memoria acumulada ---")
for m in memory.chat_memory.messages:
    print(type(m).__name__, "‚Üí", m.content)


  memory = ConversationBufferMemory(return_messages=True)
  conversation = ConversationChain(llm=llm, memory=memory, verbose=True)


Usuario: Hola, soy Ana y me gusta Python.


[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
[]
Human: Hola, soy Ana y me gusta Python.
AI:[0m

[1m> Finished chain.[0m
Asistente: ¬°Hola, Ana! Encantado de conocerte. Python es un lenguaje de programaci√≥n muy vers√°til y popular. ¬øQu√© es lo que m√°s te gusta de Python? ¬øEst√°s trabajando en alg√∫n proyecto en particular o aprendiendo algo nuevo?

Usuario: ¬øQu√© lenguaje dije que me gustaba?


[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not kno


**Qu√© observar**  
- La memoria **no** es persistente entre ejecuciones del notebook; vive en RAM.  
- Para memorias largas o persistentes, considera `ConversationSummaryMemory` o guardar/recargar historiales.  
- En la secci√≥n 3 usamos la alternativa moderna con `RunnableWithMessageHistory`.


`ConversationBufferMemory` est√° deprecado en LangChain (se mantiene hasta langchain==1.0.0), as√≠ que lo muestro para aprender pero en la secci√≥n 3 uso el enfoque moderno con RunnableWithMessageHistory y history-aware retriever.


## 3) Conversaci√≥n con RAG (consultas a una base vectorial)

En esta secci√≥n implementamos un **RAG conversacional**:
1. Cargamos documentos locales (carpeta `./data`).
2. Los partimos en fragmentos.
3. Creamos embeddings y un **√≠ndice vectorial** con **Chroma**.
4. Usamos un **retriever** que busca los pasajes m√°s relevantes.
5. Armamos una cadena **history-aware** (consciente del historial) para contextualizar preguntas de seguimiento.
6. Mantenemos el historial con `RunnableWithMessageHistory`.

> Si no tienes documentos, crearemos **autom√°ticamente** algunos de ejemplo en `./data`.


In [None]:

# 3.1) Carga de documentos
from pathlib import Path
from langchain_community.document_loaders import DirectoryLoader, TextLoader, PyPDFLoader

data_dir = Path("data")
data_dir.mkdir(exist_ok=True)

# Si la carpeta est√° vac√≠a, creamos documentos de ejemplo
if not any(data_dir.iterdir()):
    (data_dir / "intro_rag.txt").write_text(
        "RAG (Retrieval-Augmented Generation) combina recuperaci√≥n de contexto con generaci√≥n. "
        "Permite responder con informaci√≥n actualizada sin reentrenar el modelo."
    )
    (data_dir / "langchain_nociones.md").write_text(
        "# Nociones de LangChain\n"
        "- LCEL permite encadenar componentes con el operador |.\n"
        "- Los retrievers devuelven documentos relevantes.\n"
        "- Los vector stores como Chroma y FAISS almacenan embeddings."
    )

# Cargamos .txt y .md con TextLoader, y .pdf con PyPDFLoader
loaders = []
# Text/Markdown
loaders.append(DirectoryLoader(str(data_dir), glob="**/*.txt", loader_cls=TextLoader, show_progress=True))
loaders.append(DirectoryLoader(str(data_dir), glob="**/*.md", loader_cls=TextLoader, show_progress=True))
# PDF
for pdf in data_dir.glob("**/*.pdf"):
    loaders.append(PyPDFLoader(str(pdf)))

docs = []
for loader in loaders:
    docs.extend(loader.load())

print(f"Documentos cargados: {len(docs)}")


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 3077.26it/s]
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 4691.62it/s]

Documentos cargados: 2





In [None]:

# 3.2) Particionado de documentos en chunks
# En versiones recientes, los 'splitters' residen en 'langchain_text_splitters'
try:
    from langchain_text_splitters import RecursiveCharacterTextSplitter
except ImportError:
    # Fallback si usas una versi√≥n anterior
    from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800, # Cada fragmento tendr√° como m√°ximo 800 caracteres.
    chunk_overlap=120, # Cada fragmento se solapa con el siguiente en 120 caracteres.
    add_start_index=True # A√±ade el √≠ndice de inicio del chunk en el documento original (√∫til para referencias).
)
splits = text_splitter.split_documents(docs)
print(f"Chunks creados: {len(splits)}")


Chunks creados: 2


`chunk_size=800`

Cada fragmento tendr√° como m√°ximo 800 caracteres.
Esto ayuda a que el LLM no reciba textos demasiado largos en una sola pasada.

`chunk_overlap=120`

Cada fragmento se solapa con el siguiente en 120 caracteres.
Sirve para que no se ‚Äúcorte‚Äù informaci√≥n importante justo en el l√≠mite entre dos chunks.
Ejemplo: si un p√°rrafo empieza al final de un chunk, el solapamiento asegura que tambi√©n aparezca al inicio del siguiente.

`add_start_index=True`

Agrega un √≠ndice de inicio (posici√≥n dentro del texto original) en la metadata de cada fragmento.
Eso es √∫til si despu√©s quer√©s rastrear en qu√© parte exacta del documento estaba el chunk.

In [None]:

# 3.3) Embeddings + Vector Store (Chroma)
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

embedding = OpenAIEmbeddings(model="text-embedding-3-small")
persist_dir = "chroma_db"

vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embedding,
    persist_directory=persist_dir  # para que puedas reusar el √≠ndice
)

retriever = vectordb.as_retriever(search_kwargs={"k": 4})
print("Vector store listo ‚úì")


Vector store listo ‚úì


In [None]:

# 3.4) Cadena de RAG con historial (enfoque recomendado)
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.chains.history_aware_retriever import create_history_aware_retriever
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains import create_retrieval_chain

llm = llm_factory()

# Prompt que reescribe la consulta considerando el historial (si lo hay)
contextualize_q_prompt = ChatPromptTemplate.from_messages([
    ("system", "Reescribe la consulta del usuario para b√∫squeda, teniendo en cuenta el historial."),
    MessagesPlaceholder("chat_history"),
    ("human", "{input}")
])

history_aware_retriever = create_history_aware_retriever(
    llm=llm,
    retriever=retriever,
    prompt=contextualize_q_prompt
)

# Prompt final para responder con los documentos recuperados
qa_prompt = ChatPromptTemplate.from_messages([
    ("system",
     "Eres un asistente experto. Usa EXCLUSIVAMENTE el 'contexto' proporcionado para responder en espa√±ol. "
     "Si la respuesta no est√° en el contexto, di claramente que no aparece.\n\n"
     "===== CONTEXTO =====\n{context}\n=====================\n"),
    MessagesPlaceholder("chat_history"),
    ("human", "{input}")
])


combine_docs_chain = create_stuff_documents_chain(llm=llm, prompt=qa_prompt)
rag_chain = create_retrieval_chain(history_aware_retriever, combine_docs_chain)

print("Cadenas de RAG construidas ‚úì")


Cadenas de RAG construidas ‚úì


In [None]:

# 3.5) A√±adir memoria de conversaci√≥n con RunnableWithMessageHistory
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain.memory import ChatMessageHistory  # almacenamiento simple en memoria

# Diccionario {session_id: ChatMessageHistory}
_session_store = {}

def get_session_history(session_id: str):
    if session_id not in _session_store:
        _session_store[session_id] = ChatMessageHistory()
    return _session_store[session_id]

rag_with_history = RunnableWithMessageHistory(
    rag_chain,
    get_session_history,
    input_messages_key="input",
    history_messages_key="chat_history",
    output_messages_key="answer",  # la clave por defecto para create_retrieval_chain
)

# Demostraci√≥n de di√°logo multi-turno con el mismo session_id
config = {"configurable": {"session_id": "demo"}}

def conversar(pregunta: str):
    resp = rag_with_history.invoke({"input": pregunta}, config=config)
    print("‚Üí", resp["answer"])
    # Si quieres inspeccionar qu√© documentos us√≥:
    # for i, d in enumerate(resp.get("context", []), 1):
    #     print(f"[{i}] {d.metadata.get('source', 'doc')}:{d.metadata.get('page', '')}")

print("Pregunta 1: ¬øQu√© es RAG?")
conversar("¬øQu√© es RAG?")

print("\nPregunta 2: ¬øY c√≥mo se relaciona con LangChain? (nota: usa un pronombre)")
conversar("¬øY c√≥mo se relaciona con LangChain?")

print("\nPregunta 3: ¬øD√≥nde mencionaste los retrievers?")
conversar("¬øD√≥nde mencionaste los retrievers?")


Pregunta 1: ¬øQu√© es RAG?
‚Üí RAG (Retrieval-Augmented Generation) combina recuperaci√≥n de contexto con generaci√≥n. Permite responder con informaci√≥n actualizada sin reentrenar el modelo.

Pregunta 2: ¬øY c√≥mo se relaciona con LangChain? (nota: usa un pronombre)
‚Üí No aparece.

Pregunta 3: ¬øD√≥nde mencionaste los retrievers?
‚Üí Los retrievers se mencionan en el contexto como aquellos que devuelven documentos relevantes.


### Consultas la base de vectores

In [None]:
query = "¬øQu√© es RAG?"
pairs = vectordb.similarity_search_with_score(query, k=4)
for doc, score in pairs:
    print(score, doc.metadata.get("source"))

0.8152427673339844 data/intro_rag.txt
1.3764668703079224 data/langchain_nociones.md


In [None]:
query = "¬øQu√© es RAG?"
docs = retriever.invoke(query)  # equivalente a retriever.get_relevant_documents(query)

for i, d in enumerate(docs, 1):
    print(f"[{i}] {d.metadata.get('source', 'doc')}  p√°g: {d.metadata.get('page')}")
    print(d.page_content[:300], "...\n")

[1] data/intro_rag.txt  p√°g: None
RAG (Retrieval-Augmented Generation) combina recuperaci√≥n de contexto con generaci√≥n. Permite responder con informaci√≥n actualizada sin reentrenar el modelo. ...

[2] data/langchain_nociones.md  p√°g: None
# Nociones de LangChain
- LCEL permite encadenar componentes con el operador |.
- Los retrievers devuelven documentos relevantes.
- Los vector stores como Chroma y FAISS almacenan embeddings. ...




### Notas y buenas pr√°cticas
- Si ves advertencias de *deprecations*, revisa las gu√≠as de migraci√≥n de LangChain y actualiza imports.
- Para **persistir** historiales entre sesiones, puedes reemplazar `ChatMessageHistory` por alternativas como `FileChatMessageHistory` o una base de datos.
- **FAISS** es otra base vectorial popular (`faiss-cpu`). El c√≥digo cambia poco: `from langchain_community.vectorstores import FAISS` y `FAISS.from_documents(...)`.
- Ajusta `chunk_size`/`chunk_overlap` seg√∫n el tama√±o de tus documentos y el contexto del modelo.



---

## Cr√©ditos y recursos
- Documentaci√≥n de **ChatOpenAI** y `langchain-openai` (instalaci√≥n y uso).
- `ConversationBufferMemory` (estado: deprecado, pero √∫til para aprender).
- RAG moderno con `create_history_aware_retriever` y `create_retrieval_chain`.
- `create_stuff_documents_chain` para combinar documentos en el prompt.

> Revisa las gu√≠as oficiales para ejemplos actualizados, cambios en APIs y mejores pr√°cticas.


### Funci√≥n de ayuda: `preguntar()`

In [None]:

def preguntar(texto: str, session_id: str = "demo", mostrar_fuentes: bool = True):
    if 'rag_with_history' in globals():
        config = {"configurable": {"session_id": session_id}}
        resp = rag_with_history.invoke({"input": texto}, config=config)
    elif 'rag_chain' in globals():
        resp = rag_chain.invoke({"input": texto, "chat_history": []})
    else:
        raise RuntimeError("No encontr√© 'rag_with_history' ni 'rag_chain'. Ejecut√° las celdas de la secci√≥n 3.4 y 3.5.")

    print(resp.get("answer") or resp)
    if mostrar_fuentes and isinstance(resp, dict) and "context" in resp:
        print("\nFuentes:")
        for i, d in enumerate(resp["context"], 1):
            src = d.metadata.get("source", "doc")
            page = d.metadata.get("page", "")
            print(f"[{i}] {src} {('p√°g ' + str(page)) if page not in (None, '') else ''}")
    return resp
