# 3. Chunking y Embeddings con LangChain y GitHub Models

## Objetivos de Aprendizaje
- Entender la necesidad de dividir documentos largos en fragmentos (chunking).
- Aprender a usar los divisores de texto de LangChain (`RecursiveCharacterTextSplitter`).
- Comprender qu√© son los embeddings y por qu√© son fundamentales para la b√∫squeda sem√°ntica.
- Generar embeddings para los chunks de texto utilizando los modelos de GitHub a trav√©s de la API de OpenAI.

## De la B√∫squeda por Palabras Clave a la B√∫squeda Sem√°ntica

En el notebook anterior, construimos un RAG b√°sico que funcionaba con palabras clave. Sus limitaciones eran claras: no entend√≠a el significado, los sin√≥nimos o el contexto. Para superar esto, necesitamos dos procesos clave:

1.  **Chunking**: Si un documento es muy largo, su embedding representar√° una idea demasiado general. Al dividirlo en chunks m√°s peque√±os y cohesivos, cada chunk representa una idea m√°s espec√≠fica. Esto hace que la b√∫squeda de similitud sea mucho m√°s precisa.
2.  **Embeddings**: Son la pieza central de la b√∫squeda sem√°ntica. Convierten el texto (nuestros chunks) en vectores num√©ricos en un espacio multidimensional. Los textos con significados similares tendr√°n vectores cercanos en este espacio, lo que nos permite encontrar informaci√≥n relevante aunque no se usen las mismas palabras.

In [2]:
import os
import string
from openai import OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from IPython.display import display, Markdown

# --- Configuraci√≥n del Cliente de OpenAI ---
def initialize_client():
    # Aseg√∫rate de tener las variables de entorno GITHUB_BASE_URL y GITHUB_TOKEN configuradas
    client = OpenAI(
        base_url=os.getenv("GITHUB_BASE_URL", "https://models.inference.ai.azure.com"),
        api_key=os.getenv("GITHUB_TOKEN")
    )
    return client

client = initialize_client()
print("‚úì Cliente de OpenAI (compatible con GitHub Models) inicializado.")

‚úì Cliente de OpenAI (compatible con GitHub Models) inicializado.


## 1. El Documento a Procesar

Comenzamos con un documento de texto m√°s largo que los que usamos en el notebook anterior. Este texto sobre la historia de la inteligencia artificial es ideal para demostrar la necesidad del chunking.

In [3]:
long_text = (
    "La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. "
    "Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. "
    "El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia de Dartmouth, considerada el nacimiento oficial de la IA como campo de estudio. "
    "Los primeros a√±os estuvieron marcados por un gran optimismo, con la creaci√≥n de programas como el Logic Theorist y el General Problem Solver, que pod√≠an resolver problemas de l√≥gica y teoremas matem√°ticos. "
    "Sin embargo, las limitaciones computacionales y la complejidad de los problemas del mundo real llevaron al primer 'invierno de la IA' en la d√©cada de 1970, un per√≠odo de reducci√≥n de fondos y escepticismo. "
    "El resurgimiento lleg√≥ en la d√©cada de 1980 con el auge de los sistemas expertos, programas que encapsulaban el conocimiento de un experto humano en un dominio espec√≠fico, como el diagn√≥stico m√©dico (por ejemplo, MYCIN). "
    "Estos sistemas demostraron el valor comercial de la IA, pero su fragilidad y el alto costo de mantenimiento condujeron a un segundo invierno a finales de los 80 y principios de los 90. "
    "La revoluci√≥n moderna de la IA comenz√≥ a gestarse a finales de los 90 y principios de los 2000, impulsada por tres factores clave: la disponibilidad de grandes vol√∫menes de datos (Big Data), el desarrollo de hardware m√°s potente (especialmente las GPU) y los avances en algoritmos de aprendizaje autom√°tico, en particular las redes neuronales profundas (deep learning). "
    "Hitos como la victoria de Deep Blue de IBM sobre el campe√≥n de ajedrez Garry Kasparov en 1997 y, m√°s tarde, el triunfo de AlphaGo de DeepMind en el juego de Go en 2016, demostraron el poder del aprendizaje por refuerzo y el deep learning. "
    "Hoy, vivimos en la era de los modelos de lenguaje grande (LLM) como GPT y Claude, y los modelos de difusi√≥n para la generaci√≥n de im√°genes, que han llevado la IA a la corriente principal, transformando industrias y planteando nuevas preguntas sobre el futuro de la tecnolog√≠a y la humanidad."
)

display(Markdown("### üìú Documento Original"))
print(long_text)
print(f"Longitud del texto: {len(long_text)} caracteres.")

### üìú Documento Original

La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia de Dartmouth, considerada el nacimiento oficial de la IA como campo de estudio. Los primeros a√±os estuvieron marcados por un gran optimismo, con la creaci√≥n de programas como el Logic Theorist y el General Problem Solver, que pod√≠an resolver problemas de l√≥gica y teoremas matem√°ticos. Sin embargo, las limitaciones computacionales y la complejidad de los problemas del mundo real llevaron al primer 'invierno de la IA' en la d√©cada de 1970, un per√≠odo de reducci√≥n de fondos y escepticismo. El resurgimiento lleg√≥ en la d√©cada de 1980 con el auge de los sistemas expertos, programas que encapsulaban el conocimiento de un experto h

## 2. Chunking con `RecursiveCharacterTextSplitter`

LangChain ofrece varias herramientas para dividir texto. `RecursiveCharacterTextSplitter` es una de las m√°s recomendadas porque intenta dividir el texto bas√°ndose en una jerarqu√≠a de separadores (como saltos de l√≠nea dobles, saltos de l√≠nea simples, espacios, etc.) para mantener los fragmentos lo m√°s coherentes posible.

-   `chunk_size`: Define el tama√±o m√°ximo de cada chunk (en caracteres).
-   `chunk_overlap`: Define cu√°ntos caracteres se superponen entre chunks consecutivos. Esto es crucial para no perder el contexto que podr√≠a existir justo en el l√≠mite entre dos chunks.

In [4]:
# 1. Inicializar el divisor de texto
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=350,  # Tama√±o del chunk en caracteres
    chunk_overlap=50,  # Superposici√≥n para mantener contexto
    length_function=len
)

# 2. Dividir el documento en chunks
chunks = text_splitter.split_text(long_text)

display(Markdown(f"### üß© Documento Dividido en {len(chunks)} Chunks"))

# 3. Mostrar los chunks resultantes
for i, chunk in enumerate(chunks):
    print(f"--- CHUNK {i+1} (Longitud: {len(chunk)}) ---")
    print(chunk)
    print()

### üß© Documento Dividido en 7 Chunks

--- CHUNK 1 (Longitud: 349) ---
La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia

--- CHUNK 2 (Longitud: 349) ---
John McCarthy en 1956 en la famosa Conferencia de Dartmouth, considerada el nacimiento oficial de la IA como campo de estudio. Los primeros a√±os estuvieron marcados por un gran optimismo, con la creaci√≥n de programas como el Logic Theorist y el General Problem Solver, que pod√≠an resolver problemas de l√≥gica y teoremas matem√°ticos. Sin embargo, las

--- CHUNK 3 (Longitud: 348) ---
l√≥gica y teoremas matem√°ticos. Sin embargo, las limitaciones computacionales y la complejidad de los problemas del mundo real llevaron al primer 'invierno de la IA' en la d√©cada de 1970,

## 3. Generaci√≥n de Embeddings para cada Chunk

Ahora que tenemos nuestros chunks, el siguiente paso es convertirlos en vectores num√©ricos. Usaremos el modelo `text-embedding-3-small`, que es eficiente y potente.

El resultado ser√° una lista de vectores, donde cada vector corresponde a un chunk de nuestro documento.

In [6]:
def get_embeddings(client, texts):
    """Funci√≥n para obtener embeddings de una lista de textos."""
    response = client.embeddings.create(
        model="text-embedding-3-small",
        input=texts
    )
    return [item.embedding for item in response.data]

# Generar embeddings para todos los chunks
try:
    chunk_embeddings = get_embeddings(client, chunks)
    print(f"‚úì Se generaron {len(chunk_embeddings)} embeddings.")
    print(f"Dimensi√≥n de cada embedding: {len(chunk_embeddings[0])}")
except Exception as e:
    print(f"‚ùå Error al generar embeddings: {e}")

# Mostrar un ejemplo de un chunk y su embedding correspondiente
if 'chunk_embeddings' in locals() and chunk_embeddings:
    display(Markdown("### üîç Ejemplo: Chunk y su Embedding"))
    
    example_index = 0
    example_chunk = chunks[example_index]
    example_embedding = chunk_embeddings[example_index]
    
    print(f"**Texto del Chunk {example_index + 1}:**{example_chunk}")
    print(f"**Embedding (primeros 10 de {len(example_embedding)} dimensiones):**{example_embedding[:10]}...")

‚úì Se generaron 7 embeddings.
Dimensi√≥n de cada embedding: 1536


### üîç Ejemplo: Chunk y su Embedding

**Texto del Chunk 1:**La historia de la inteligencia artificial (IA) es una narrativa fascinante de ambici√≥n, innovaci√≥n y perseverancia. Sus ra√≠ces se remontan a la d√©cada de 1950, cuando pioneros como Alan Turing plantearon la pregunta de si las m√°quinas pod√≠an pensar. El t√©rmino 'inteligencia artificial' fue acu√±ado por John McCarthy en 1956 en la famosa Conferencia
**Embedding (primeros 10 de 1536 dimensiones):**[0.027127915993332863, 0.009841188788414001, 0.00236149481497705, -0.007694374769926071, 0.016413364559412003, -0.01881389319896698, 0.017398947849869728, 0.05039156973361969, -0.010656001977622509, -0.006372132804244757]...


## 4. Conclusiones y Pr√≥ximos Pasos

¬°Felicidades! Has completado los dos pasos fundamentales para pasar de un RAG b√°sico a uno sem√°ntico:

1.  **Has dividido un documento largo en chunks manejables y coherentes.**
2.  **Has convertido cada chunk de texto en un vector num√©rico (embedding) que captura su significado.**

Con esta lista de chunks y su correspondiente lista de embeddings, ahora tienes una **base de conocimiento vectorial**. 

**En el pr√≥ximo notebook (`3-vector-rag.ipynb`), aprender√°s a:**
-   Tomar una consulta del usuario y generar tambi√©n su embedding.
-   Usar la **similitud coseno** para comparar el vector de la consulta con todos los vectores de los chunks.
-   Seleccionar los chunks m√°s similares (los que tienen la puntuaci√≥n de similitud m√°s alta) para usarlos como contexto en la generaci√≥n de la respuesta.