# LANGCHAIN RECURSIVE CHARACTER TEXT SPLITTER 🦜

# Load Dependencies 👩‍💻👨‍💻

In [None]:
pip install langchain langchain-community

Collecting langchain
  Downloading langchain-0.2.15-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-community
  Downloading langchain_community-0.2.15-py3-none-any.whl.metadata (2.7 kB)
Collecting langchain-core<0.3.0,>=0.2.35 (from langchain)
  Downloading langchain_core-0.2.37-py3-none-any.whl.metadata (6.2 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.2-py3-none-any.whl.metadata (2.1 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.108-py3-none-any.whl.metadata (13 kB)
Collecting tenacity!=8.4.0,<9.0.0,>=8.1.0 (from langchain)
  Downloading tenacity-8.5.0-py3-none-any.whl.metadata (1.2 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.22.0-py3-none-any.whl.metad

# Text Splitters 📖✂️

Divide un documento largo en fragmentos más pequeños que entren en la `context_window` del modelo.


In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

def get_chunks(documents, separators=["\n\n", "\n", " "],  chunk_size=1000, chunk_overlap=200):

  text_splitter = RecursiveCharacterTextSplitter(
          separators=separators,
          chunk_size=chunk_size,
          chunk_overlap=chunk_overlap
      )

  chunks = text_splitter.create_documents(documents)

  return chunks

In [None]:
documents = ["Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.\n\nLos alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y exponer", "Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje. Por un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos anteriores que llevan hasta su reciente desarrollo. Por otro lado, se tiene como objetivo entender el estado del arte y los desafíos teórico-prácticos que se encuentran abiertos en la actualidad."]

chunks = get_chunks(documents)
chunks

[Document(page_content='Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.\n\nLos alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y exponer'),
 Document(page_content='Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje. Por un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos anteriores que llevan hasta su reciente desarrollo. Por otro lado, se tiene como objetivo entender el estado del arte y los desafíos teórico-prácticos que se encuentran abiertos en la actualidad.')]

In [None]:
custom_chunks = get_chunks(documents, separators=["\n\n", "\n", ".", " "],  chunk_size=100, chunk_overlap=10)
custom_chunks

[Document(page_content='Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python'),
 Document(page_content='en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning'),
 Document(page_content='.'),
 Document(page_content='Los alumnos propondrán la aplicación, fomentando así la creatividad'),
 Document(page_content='. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los'),
 Document(page_content='los alumnos deberán debatir y exponer'),
 Document(page_content='Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje'),
 Document(page_content='. Por un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos'),
 Document(page_content='los pasos anteriores que llevan hasta su reciente desarrollo'),
 Document(page_content='. Por otro lado, se tiene como objetivo entender el estado del arte y los desafíos teórico-prácticos')

In [None]:
len(custom_chunks[0].page_content)

94

📝 Consideraciones:

- Notar que el `chunk_size` no es exactamente el que se especificó. Define el MÁXIMO chunk_size, pero el verdadero tamaño puede ser menor. Esto lo realiza para evitar cortar el texto en el medio de una palabra

- El `chunk_overlap` no es exactamente el que se especificó. Si el splitter encuentra un separator dentro de la región de overlap prioriza hacer un split. Esto causa que haya menos caracteres de overlap

- Isolated separator (en este caso, el `'.'`)

Ejemplo:
separators=["\n\n", "\n", ".", " "]

Doc: `Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.\n\nLos alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y exponer`

1er chunk: `"Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python"`
- El splitter alcanza casi 100 chars y encuentra un `' '` (no encontró ningún otro separator antes) --> SPLIT

2do chunk: `"en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning"`
- EL splitter aclcanza casi 100 chars y encuentra un `'.'` --> SPLIT

3er chunk: `'.'`
- El chunk arranca con `'.'` y después el splitter encuentra un `\n\n`, al ser menor a 100 --> SPLIT

💡 Posible solución: Cambiar el orden de los separators o aumentar el chunk_size



In [None]:
custom_chunks = get_chunks(documents, separators=["\n\n", "\n", " ", "."],  chunk_size=100, chunk_overlap=10)
custom_chunks

[Document(page_content='Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python'),
 Document(page_content='en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.'),
 Document(page_content='Los alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán'),
 Document(page_content='papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y'),
 Document(page_content='debatir y exponer'),
 Document(page_content='Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje. Por un lado,'),
 Document(page_content='un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos'),
 Document(page_content='los pasos anteriores que llevan hasta su reciente desarrollo. Por otro lado, se tiene como objetivo'),
 Document(page_content='objetivo entender el estado del arte y los desafíos teórico-prácticos que se e

In [None]:
custom_chunks = get_chunks(documents, separators=["\n\n", "\n", ".", " "],  chunk_size=500, chunk_overlap=100)
custom_chunks

[Document(page_content='Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.\n\nLos alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y exponer'),
 Document(page_content='Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje. Por un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos anteriores que llevan hasta su reciente desarrollo. Por otro lado, se tiene como objetivo entender el estado del arte y los desafíos teórico-prácticos que se encuentran abiertos en la actualidad.')]

📝 Notar que la lógica del `overlap` se aplica cuando se excede el `chunk_size` luego de encontrar el primer separator.

En este caso:
1er chunk: encuentra un \n\n que es el primer separator y es < 500 entonces no necesita seguir haciendo split. Si era > 500 entonces sí hubiese necesitado el overlap.
(análogo 2do chunk)



# Metadata 🧐


It can often be useful to tag ingested documents with structured metadata, such as the title, tone, or length of a document, to allow for more targeted similarity search later. (organizing, filtering, additional info)

In [None]:
list(map(lambda doc: doc[1].metadata.update({"id": doc[0]}), enumerate(chunks)))

chunks

[Document(metadata={'id': 0}, page_content='Actividades prácticas previstas:La materia involucra el desarrollo de un Transformer en Python permitiendo el uso de librerías y utilizando técnicas como RAG y finetuning.\n\nLos alumnos propondrán la aplicación, fomentando así la creatividad. Asimismo, se proporcionarán papers relacionados con los conceptos de la materia, los cuales los alumnos deberán debatir y exponer'),
 Document(metadata={'id': 1}, page_content='Esta materia se enfoca en dos aspectos cruciales de la temática modelos de lenguaje. Por un lado, busca profundizar en el aspecto técnico de los mismos, construyendo sobre los pasos anteriores que llevan hasta su reciente desarrollo. Por otro lado, se tiene como objetivo entender el estado del arte y los desafíos teórico-prácticos que se encuentran abiertos en la actualidad.')]

# Distribución de los chunks 📊

In [None]:
import plotly.express as px
import plotly.graph_objects as go

def plot_chunks_distribution(chunks_arrays):

  fig = go.Figure()

  for i, chunks in enumerate(chunks_arrays):

    lengths = [len(chunk.page_content) for chunk in chunks]

    fig.add_trace(
        go.Histogram(
            x=lengths,
            name=f"Chunk Array {i + 1}",
            hovertemplate="Length: %{x}<br>Frequency: %{y}<extra></extra>",
            opacity=0.75,
            xbins=dict(
              start=min(lengths) - 0.5,  # Start at the minimum length, offset slightly for binning
              end=max(lengths) + 0.5,    # End at the maximum length, offset slightly for binning
              size=10                     # Bin size of 1
          )
        )
    )

  fig.update_layout(
      xaxis_title="Chunk Length",
      yaxis_title="Frequency",
      barmode='overlay'
  )

  fig.show()

In [None]:
plot_chunks_distribution([get_chunks(documents, separators=["\n\n", "\n", ".", " "],  chunk_size=100, chunk_overlap=10),
                          get_chunks(documents, separators=["\n\n", "\n", ".", " "],  chunk_size=10, chunk_overlap=0)])


🌈 Idealmente los chunks deberían tener longitudes similares, si me quedan chunks muy pequeños puedo perder contexto
