# 2 - Document Transformers

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/langchain.jpeg" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Document-Transformers" data-toc-modified-id="1---Document-Transformers-1">1 - Document Transformers</a></span><ul class="toc-item"><li><span><a href="#1.1---RecursiveCharacterTextSplitter" data-toc-modified-id="1.1---RecursiveCharacterTextSplitter-1.1">1.1 - RecursiveCharacterTextSplitter</a></span></li><li><span><a href="#1.2---CharacterTextSplitter" data-toc-modified-id="1.2---CharacterTextSplitter-1.2">1.2 - CharacterTextSplitter</a></span></li><li><span><a href="#1.3---HTMLHeaderTextSplitter" data-toc-modified-id="1.3---HTMLHeaderTextSplitter-1.3">1.3 - HTMLHeaderTextSplitter</a></span></li><li><span><a href="#1.4---Dividiendo-código" data-toc-modified-id="1.4---Dividiendo-código-1.4">1.4 - Dividiendo código</a></span></li><li><span><a href="#1.5---TokenTextSplitter" data-toc-modified-id="1.5---TokenTextSplitter-1.5">1.5 - TokenTextSplitter</a></span></li><li><span><a href="#1.6---LongContextReorder" data-toc-modified-id="1.6---LongContextReorder-1.6">1.6 - LongContextReorder</a></span></li></ul></li></ul></div>

## 1 - Document Transformers

Los transformadores de documentos en LangChain son herramientas esenciales diseñadas para manipular documentos, los cuales creamos en la sección anterior.

Se utilizan para tareas como dividir documentos largos en fragmentos más pequeños, combinarlos y filtrarlos, lo cual es crucial para adaptar los documentos a la ventana de contexto de un modelo o para cumplir con las necesidades específicas de una aplicación.

### 1.1 - RecursiveCharacterTextSplitter

Una de estas herramientas es el `RecursiveCharacterTextSplitter`, un divisor de texto versátil que utiliza una lista de caracteres para dividir. Tiene parámetros como el tamaño del fragmento, la superposición y el índice de inicio. 

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [2]:
# importamos un archivo de texto

with open('../../../files/shakespeare.txt', 'r') as f:
    
    texto = f.read()

In [3]:
# nº de cararcteres del texto

len(texto)

5436475

In [4]:
splitter = RecursiveCharacterTextSplitter(chunk_size=100,        # tamaño del fragmento
                                          chunk_overlap=50,      # superposición
                                          length_function=len,   # funcion de longitud
                                          add_start_index=True,  # indice de inicio
                                         )

In [5]:
trozos = splitter.create_documents([texto])

In [6]:
trozos[0]

Document(metadata={'start_index': 2}, page_content="From fairest creatures we desire increase,\n  That thereby beauty's rose might never die,")

In [7]:
trozos[1]

Document(metadata={'start_index': 47}, page_content="That thereby beauty's rose might never die,\n  But as the riper should by time decease,")

### 1.2 - CharacterTextSplitter

Otra herramienta es el `CharacterTextSplitter`, que divide el texto según un carácter específico e incluye controles para el tamaño del fragmento y la superposición.


In [8]:
from langchain.text_splitter import CharacterTextSplitter

In [9]:
splitter = CharacterTextSplitter(separator='\n',           # caracter separador
                                 chunk_size=1000,          # tamaño del fragmento
                                 chunk_overlap=200,        # superposición
                                 length_function=len,      # funcion de longitud
                                 is_separator_regex=False, # regex o no
                                )

In [10]:
trozos = splitter.create_documents([texto])

In [11]:
trozos[0]

Document(metadata={}, page_content="From fairest creatures we desire increase,\n  That thereby beauty's rose might never die,\n  But as the riper should by time decease,\n  His tender heir might bear his memory:\n  But thou contracted to thine own bright eyes,\n  Feed'st thy light's flame with self-substantial fuel,\n  Making a famine where abundance lies,\n  Thy self thy foe, to thy sweet self too cruel:\n  Thou that art now the world's fresh ornament,\n  And only herald to the gaudy spring,\n  Within thine own bud buriest thy content,\n  And tender churl mak'st waste in niggarding:\n    Pity the world, or else this glutton be,\n    To eat the world's due, by the grave and thee.\n                     2\n  When forty winters shall besiege thy brow,\n  And dig deep trenches in thy beauty's field,\n  Thy youth's proud livery so gazed on now,\n  Will be a tattered weed of small worth held:\n  Then being asked, where all thy beauty lies,\n  Where all the treasure of thy lusty days;\n  To s

### 1.3 - HTMLHeaderTextSplitter

El `HTMLHeaderTextSplitter` está diseñado para dividir el contenido HTML según las etiquetas de encabezado, conservando la estructura semántica. Vamos a utilizar la libreria requests para extraer el html de una página web y luego trocearlo.

In [12]:
from langchain.text_splitter import HTMLHeaderTextSplitter

In [13]:
# extraccion de html en texto

import requests as req

url = 'https://es.wikipedia.org/wiki/Python'

html = req.get(url=url).text

In [14]:
# nº de caracteres del texto

len(html)

285678

In [15]:
# division por cabeceras

splitter = HTMLHeaderTextSplitter(headers_to_split_on= [('h1', 'Header 1'), ('h2', 'Header 2')])

In [16]:
trozos_html = splitter.split_text(html)

In [17]:
trozos_html[0]

Document(metadata={}, page_content='Menú principal  \nmover a la barra lateral ocultar  \nMenú principal  \nNavegación  \nPortadaPortal de la comunidadActualidadCambios recientesPáginas nuevasPágina aleatoriaAyudaNotificar un error  \nBuscar  \nBuscar  \nDonaciones  \nApariencia  \nCrear una cuenta Acceder  \nHerramientas personales  \nCrear una cuenta Acceder  \nPáginas para editores desconectados más información  \nContribucionesDiscusión  \nContenidos mover a la barra lateral ocultar  \nAlternar subsección Elementos del lenguaje y sintaxis  \nInicio  \n1 Historia  \n2 Características y paradigmas  \n3 Filosofía  \n4 Modo interactivo  \n5 Elementos del lenguaje y sintaxis  \n5.1 Comentarios  \n5.2 Variables  \n5.3 Tipos de datos  \n5.4 Condicionales  \n5.5 Bucle for  \n5.6 Bucle while  \n5.7 Listas y Tuplas  \n5.8 Diccionarios  \n5.9 Sentencia match-case  \n5.9.1 Usando if, elif, else  \n5.9.2 Usando diccionarios  \n5.10 Conjuntos  \n5.11 Listas por comprensión  \n5.12 Funciones  \n5

Se puede lograr una manipulación más compleja combinando HTMLHeaderTextSplitter con otro divisor, como el RecursiveCharacterTextSplitter.

In [18]:
# trozos directamente desde la url

trozos_html = splitter.split_text_from_url(url)

In [19]:
splitter_recursivo = RecursiveCharacterTextSplitter(chunk_size=500)

trozos = splitter_recursivo.split_documents(trozos_html)

In [20]:
trozos[0]

Document(metadata={}, page_content='Menú principal  \nmover a la barra lateral ocultar  \nMenú principal  \nNavegación  \nPortadaPortal de la comunidadActualidadCambios recientesPáginas nuevasPágina aleatoriaAyudaNotificar un error  \nBuscar  \nBuscar  \nDonaciones  \nApariencia  \nCrear una cuenta Acceder  \nHerramientas personales  \nCrear una cuenta Acceder  \nPáginas para editores desconectados más información  \nContribucionesDiscusión  \nContenidos mover a la barra lateral ocultar  \nAlternar subsección Elementos del lenguaje y sintaxis')

### 1.4 - Dividiendo código

LangChain también ofrece divisores específicos para diferentes lenguajes de programación, como el Python Code Splitter y el JavaScript Code Splitter.

In [21]:
from langchain.text_splitter import Language

In [22]:
# con codigo de python

python = '''
         def hello_world():
             print('Hello, World!')
         hello_world()
         '''

In [23]:
splitter = RecursiveCharacterTextSplitter.from_language(language=Language.PYTHON, chunk_size=200)

In [24]:
trozos = splitter.create_documents([python])

In [25]:
trozos[0]

Document(metadata={}, page_content="def hello_world():\n             print('Hello, World!')\n         hello_world()")

In [26]:
# con codigo de javascript

js = '''
     function helloWorld() {
       console.log("Hello, World!");
     }
     helloWorld();
     '''

In [27]:
splitter = RecursiveCharacterTextSplitter.from_language(language=Language.JS, chunk_size=200)

In [28]:
trozos = splitter.create_documents([js])

In [29]:
trozos[0]

Document(metadata={}, page_content='function helloWorld() {\n       console.log("Hello, World!");\n     }\n     helloWorld();')

### 1.5 - TokenTextSplitter

Para dividir texto basado en el conteo de tokens, lo cual es útil para modelos de lenguaje con límites de tokens, se utiliza el `TokenTextSplitter`.

In [30]:
from langchain.text_splitter import TokenTextSplitter

In [31]:
splitter = TokenTextSplitter(chunk_size=200)

In [32]:
trozos = splitter.split_text(texto[:100])

In [33]:
trozos[0]

"  From fairest creatures we desire increase,\n  That thereby beauty's rose might never die,\n  But as "

### 1.6 - LongContextReorder

Finalmente, el `LongContextReorder` reordena los documentos para evitar la degradación del rendimiento en los modelos debido a contextos largos.

In [34]:
from langchain.document_transformers import LongContextReorder

In [35]:
reorden = LongContextReorder()

In [36]:
trozos = reorden.transform_documents(trozos)

In [37]:
trozos[0]

"  From fairest creatures we desire increase,\n  That thereby beauty's rose might never die,\n  But as "