<a href="https://colab.research.google.com/github/juanfranbrv/curso-langchain/blob/main/Splitting%20Text.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Text Splitting**
---
El **Text Splitting** (o división de texto) es una etapa crítica en los sistemas de **Retrieval-Augmented Generation (RAG)**. Consiste en fragmentar documentos extensos en segmentos más pequeños y manejables (_chunks_) antes de indexarlos para su recuperación posterior. Su implementación incide directamente en la calidad de la recuperación de información y, por ende, en las respuestas generadas por el modelo.

* * *

### **¿Por qué es importante?**

1.  **Equilibrio entre contexto y precisión**:
    
    -   **Chunks demasiado grandes**: Pueden contener información redundante o irrelevante, lo que "diluye" el contexto clave y reduce la precisión del retrieval.
        
    -   **Chunks demasiado pequeños**: Pierden contexto necesario para entender el significado completo (p. ej., una frase sin su párrafo asociado).
        
    -   Un buen _splitting_ mantiene la coherencia semántica en cada segmento, facilitando que el sistema recupere los fragmentos más relevantes para una consulta.
        
2.  **Compatibilidad con modelos de embedding**:
    
    -   Los modelos de embedding (como SBERT o OpenAI) tienen límites óptimos de longitud de texto. Por ejemplo, un chunk de 512 tokens funciona bien con muchos codificadores, pero un texto más largo podría truncarse o perder información crítica.
        
3.  **Impacto en la generación de respuestas**:
    
    -   Los chunks recuperados alimentan al modelo generador (como GPT-4). Si están mal estructurados, el modelo recibirá información fragmentada o fuera de contexto, lo que generará respuestas inconsistentes o inexactas.
        
4.  **Eficiencia computacional**:
    
    -   Chunks bien dimensionados reducen costos de procesamiento y latencia, ya que evitan sobrecargar el sistema con datos innecesarios.


### El Text Splitting no es un paso mecánico, sino una decisión estratégica que determina cómo el sistema "ve" la información y afectara enormemente a la calidad del sistema.

# **Nivel 1: División por Caracteres**  
---
La **división por caracteres** es la forma más básica de fragmentar texto. Consiste simplemente en dividir el texto en _chunks_ (segmentos) de un tamaño fijo de **N caracteres**, ignorando por completo el contenido o estructura del texto.

Este método **no se recomienda para aplicaciones reales**, pero es un punto de partida útil para comprender los fundamentos del _text splitting_.

**Ventajas**:

-   Fácil y sencillo de implementar.
    

**Desventajas**:

-   Muy rígido: **no considera la estructura del texto** (p. ej., separación de párrafos, puntuación o temas).
    
-   Puede fragmentar ideas o contextos clave a la mitad.
    

**Conceptos clave**:

-   **Tamaño del chunk (_Chunk Size_)**: Número de caracteres por segmento (ej: 50, 100, 1000).
    
-   **Solapamiento de chunks (_Chunk Overlap_)**: Cantidad de caracteres que se superponen entre chunks consecutivos. Esto ayuda a evitar que una misma información contextual quede dividida en múltiples chunks, aunque genera duplicación de datos.



In [1]:
text = "This is the text I would like to chunk up. It is the example text for this exercise"

In [2]:
# Create a list that will hold your chunks
chunks = []

chunk_size = 35 # Characters

# Run through the a range with the length of your text and iterate every chunk_size you want
for i in range(0, len(text), chunk_size):
    chunk = text[i:i + chunk_size]
    chunks.append(chunk)
chunks

['This is the text I would like to ch',
 'unk up. It is the example text for ',
 'this exercise']