# 4. RAG Completo con B√∫squeda Vectorial y LangChain

## Objetivos de Aprendizaje
- Integrar el chunking, los embeddings y la recuperaci√≥n en un √∫nico pipeline de RAG.
- Utilizar una base de datos vectorial (FAISS) para almacenar y buscar chunks de manera eficiente.
- Construir una cadena `RetrievalQA` en LangChain para orquestar todo el proceso.
- Realizar una consulta y obtener una respuesta generada por el LLM basada en el contexto recuperado.

## El Pipeline de RAG Vectorial

En los notebooks anteriores, preparamos los componentes: dividimos el texto y creamos embeddings. Ahora, vamos a unirlos en un sistema funcional. Este es el flujo de trabajo completo de un RAG basado en vectores:

1.  **Indexaci√≥n (se hace una sola vez):**
    - Se carga un documento.
    - Se divide en chunks.
    - Se generan embeddings para cada chunk.
    - Los chunks y sus embeddings se almacenan en una **base de datos vectorial** (Vector Store).
2.  **Recuperaci√≥n y Generaci√≥n (se hace para cada consulta):**
    - El usuario hace una pregunta (consulta).
    - Se genera un embedding para la consulta.
    - Se usa el embedding de la consulta para buscar en la base de datos vectorial los chunks m√°s similares (b√∫squeda de similitud).
    - Los chunks recuperados se pasan como contexto al LLM junto con la consulta original.
    - El LLM genera una respuesta basada en el contexto proporcionado.

# Install faiss
!pip install faiss-cpu

In [3]:
import os
from openai import OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from IPython.display import display, Markdown

# --- Configuraci√≥n del Cliente y Modelos de LangChain ---
os.environ["OPENAI_API_KEY"] = os.getenv("GITHUB_TOKEN")
os.environ["OPENAI_API_BASE"] = os.getenv("GITHUB_BASE_URL", "https://models.inference.ai.azure.com")

# Modelo de embeddings (compatible con la API de OpenAI)
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"
)

# Modelo de lenguaje para la generaci√≥n de respuestas
llm = ChatOpenAI(
    model="gpt-4.1",
    temperature=0.1
)

print("‚úì Modelos de embeddings y chat inicializados con LangChain.")

‚úì Modelos de embeddings y chat inicializados con LangChain.


## 1. Carga y Fragmentaci√≥n del Documento

Reutilizamos el mismo texto sobre la historia de la IA y lo dividimos en chunks, exactamente como en el notebook anterior.

In [5]:
long_text = (
    "La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. "
    "Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. "
    "El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia de Dartmouth, considerada el nacimiento oficial de la IA como campo de estudio. "
    "Los primeros a√±os estuvieron marcados por un gran optimismo, con la creaci√≥n de programas como el Logic Theorist y el General Problem Solver, que pod√≠an resolver problemas de l√≥gica y teoremas matem√°ticos. "
    "Sin embargo, las limitaciones computacionales y la complejidad de los problemas del mundo real llevaron al primer 'invierno de la IA' en la d√©cada de 1970, un per√≠odo de reducci√≥n de fondos y escepticismo. "
    "El resurgimiento lleg√≥ en la d√©cada de 1980 con el auge de los sistemas expertos, programas que encapsulaban el conocimiento de un experto humano en un dominio espec√≠fico, como el diagn√≥stico m√©dico (por ejemplo, MYCIN). "
    "Estos sistemas demostraron el valor comercial de la IA, pero su fragilidad y el alto costo de mantenimiento condujeron a un segundo invierno a finales de los 80 y principios de los 90. "
    "La revoluci√≥n moderna de la IA comenz√≥ a gestarse a finales de los 90 y principios de los 2000, impulsada por tres factores clave: la disponibilidad de grandes vol√∫menes de datos (Big Data), el desarrollo de hardware m√°s potente (especialmente las GPU) y los avances en algoritmos de aprendizaje autom√°tico, en particular las redes neuronales profundas (deep learning). "
    "Hitos como la victoria de Deep Blue de IBM sobre el campe√≥n de ajedrez Garry Kasparov en 1997 y, m√°s tarde, el triunfo de AlphaGo de DeepMind en el juego de Go en 2016, demostraron el poder del aprendizaje por refuerzo y el deep learning. "
    "Hoy, vivimos en la era de los modelos de lenguaje grande (LLM) como GPT y Claude, y los modelos de difusi√≥n para la generaci√≥n de im√°genes, que han llevado la IA a la corriente principal, transformando industrias y planteando nuevas preguntas sobre el futuro de la tecnolog√≠a y la humanidad."
)

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=350,
    chunk_overlap=50,
    length_function=len
)
chunks = text_splitter.split_text(long_text)

display(Markdown(f"### üìú Documento dividido en {len(chunks)} chunks."))

### üìú Documento dividido en 7 chunks.

## 2. Creaci√≥n de la Base de Datos Vectorial con FAISS

Aqu√≠ es donde la magia ocurre. LangChain simplifica enormemente la creaci√≥n de la base de datos vectorial.

Usamos `FAISS.from_texts()`, que realiza los siguientes pasos internamente:
1.  Toma nuestra lista de `chunks`.
2.  Utiliza el modelo de `embeddings` que le proporcionamos para convertir cada chunk en un vector.
3.  Crea un √≠ndice FAISS en memoria con todos los vectores y sus correspondientes chunks de texto.

**FAISS (Facebook AI Similarity Search)** es una librer√≠a altamente optimizada para la b√∫squeda de similitud en conjuntos masivos de vectores.

In [6]:
try:
    # Crear la base de datos vectorial a partir de los chunks y el modelo de embeddings
    vector_db = FAISS.from_texts(texts=chunks, embedding=embeddings)
    print("‚úì Base de datos vectorial FAISS creada en memoria.")
except Exception as e:
    print(f"‚ùå Error al crear la base de datos vectorial: {e}")

‚úì Base de datos vectorial FAISS creada en memoria.


## 3. Consulta y Recuperaci√≥n de Chunks Relevantes

Antes de pasar al LLM, veamos qu√© recupera nuestro sistema. Un `retriever` es un componente de LangChain que, dada una consulta, devuelve los documentos m√°s relevantes desde la base de datos vectorial.

In [8]:
query = "¬øQui√©n acu√±√≥ el t√©rmino 'inteligencia artificial'?"

if 'vector_db' in locals():
    # El retriever es la interfaz para buscar en la base de datos
    retriever = vector_db.as_retriever(search_kwargs={"k": 2}) # k=2 para obtener los 2 chunks m√°s relevantes
    
    # Realizar la b√∫squeda
    relevant_chunks = retriever.invoke(query)
    
    display(Markdown(f"### üîç Chunks recuperados para la consulta: *'{query}'*"))
    for i, chunk in enumerate(relevant_chunks):
        print(f"--- CHUNK RELEVANTE {i+1} ---")
        print(chunk.page_content)
        print()


### üîç Chunks recuperados para la consulta: *'¬øQui√©n acu√±√≥ el t√©rmino 'inteligencia artificial'?'*

--- CHUNK RELEVANTE 1 ---
La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia

--- CHUNK RELEVANTE 2 ---
John McCarthy en 1956 en la famosa Conferencia de Dartmouth, considerada el nacimiento oficial de la IA como campo de estudio. Los primeros a√±os estuvieron marcados por un gran optimismo, con la creaci√≥n de programas como el Logic Theorist y el General Problem Solver, que pod√≠an resolver problemas de l√≥gica y teoremas matem√°ticos. Sin embargo, las



## 4. Generaci√≥n de la Respuesta con `RetrievalQA`

Ahora, unimos todo. La cadena `RetrievalQA` de LangChain est√° dise√±ada exactamente para este prop√≥sito. Le proporcionamos:

-   `llm`: El modelo de lenguaje que generar√° la respuesta final.
-   `retriever`: Nuestro recuperador de la base de datos FAISS.
-   `chain_type="stuff"`: Esta es la estrategia m√°s simple. Simplemente "rellena" (stuff) el prompt con todos los chunks recuperados.

La cadena se encargar√° de todo el proceso: tomar la consulta, recuperar los chunks, construir el prompt y obtener la respuesta del LLM.

In [9]:
if 'vector_db' in locals():
    # Crear la cadena de RetrievalQA
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=vector_db.as_retriever()
    )
    
    # Ejecutar la cadena con nuestra consulta
    response = qa_chain.invoke({"query": query})
    
    display(Markdown(f"### üí¨ Respuesta Generada por el LLM"))
    display(Markdown(response['result']))

### üí¨ Respuesta Generada por el LLM

El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 durante la famosa Conferencia de Dartmouth.

## 5. Conclusiones

¬°Felicidades! Has construido un sistema de RAG completo y funcional. 

- **Automatizaci√≥n**: LangChain ha orquestado todos los pasos, desde la creaci√≥n de la base de datos vectorial hasta la generaci√≥n de la respuesta final, con muy poco c√≥digo.
- **Precisi√≥n**: La respuesta del LLM se basa directamente en la informaci√≥n encontrada en el documento, lo que la hace precisa y fiable, evitando alucinaciones.
- **Eficiencia**: FAISS permite que la b√∫squeda de similitud sea extremadamente r√°pida, incluso con millones de documentos.

Este es el patr√≥n fundamental sobre el que se construyen la mayor√≠a de las aplicaciones de RAG modernas. A partir de aqu√≠, se pueden explorar t√©cnicas m√°s avanzadas como diferentes estrategias de chunking, re-ranking de resultados o cadenas m√°s complejas.

In [10]:
# Probemos con otra pregunta para ver la robustez del sistema
if 'qa_chain' in locals():
    query_invierno = "¬øQu√© caus√≥ el primer invierno de la IA?"
    response_invierno = qa_chain.invoke({"query": query_invierno})
    
    display(Markdown(f"### ‚ùì Consulta: *{query_invierno}*"))
    display(Markdown(f"### üí¨ Respuesta: *{response_invierno['result']}*"))

### ‚ùì Consulta: *¬øQu√© caus√≥ el primer invierno de la IA?*

### üí¨ Respuesta: *El primer "invierno de la IA" fue causado principalmente por las limitaciones computacionales y la complejidad de los problemas del mundo real. Aunque los primeros programas de IA, como el Logic Theorist y el General Problem Solver, lograron resolver problemas de l√≥gica y teoremas matem√°ticos, pronto se hizo evidente que estos enfoques no pod√≠an escalar ni manejar situaciones m√°s complejas fuera de entornos controlados. Esto llev√≥ a una reducci√≥n de fondos y un aumento del escepticismo en la d√©cada de 1970, marcando as√≠ el primer invierno de la IA.*