# Text Splitters

In [1]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''

## Character Text Splitter

In [3]:
from langchain_text_splitters import CharacterTextSplitter
import string

chunk_size = 50
chunk_overlap = 0

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [5]:
splits = char_split.split_text(texto)
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [6]:
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=''
)

splits = char_split.split_text(texto)
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

In [7]:
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=''
)
splits = char_split.split_text(texto)
splits


['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

In [10]:
chunk_size = 50
chunk_overlap = 10

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator='.'
)

splits = char_split.split_text(texto)
splits

Created a chunk of size 311, which is longer than the specified 50
Created a chunk of size 82, which is longer than the specified 50
Created a chunk of size 217, which is longer than the specified 50
Created a chunk of size 147, which is longer than the specified 50
Created a chunk of size 213, which is longer than the specified 50


['Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python',
 'A lista em Python é uma das estruturas de dados fundamentais da linguagem Python',
 'Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing',
 'Mas você já conhece as listas de Python a fundo?\n\nNeste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos',
 'Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores',
 'Vamos l

## Recursive Character Text Splitter

In [12]:
from langchain_text_splitters import RecursiveCharacterTextSplitter



chunk_size = 50
chunk_overlap = 10


char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=['\n\n', '\n', '.', '?', ' ', '']
)
char_split.split_text(texto)

['Já conhece a lista em Python',
 '? Quer entender como manipular listas e quais são',
 'quais são suas principais utilidades e métodos',
 '? Sabe qual a diferença entre listas e tuplas',
 '? Este artigo responde responde isso e muito mais!',
 'mais! Aproveite ao máximo todo o potencial dessa',
 'dessa estrutura de dados essencial para a',
 'para a programação em Python',
 '.',
 'A lista em Python é uma das estruturas de dados',
 'de dados fundamentais da linguagem Python',
 '. Além de possuir grande versatilidade, as listas',
 'as listas são extremamente relevantes para',
 'para iniciantes na programação, por incorporar',
 'uma variedade de conceitos básicos de Python como',
 'como mutabilidade, indexação, iteração e slicing',
 '. Mas você já conhece as listas de Python a fundo?',
 'Neste artigo, vamos nos aprofundar nas listas em',
 'listas em Python e aprender a utilizá-las em seus',
 'em seus códigos',
 '. Ao longo do texto, você aprenderá como criar e',
 'criar e manipular uma lis

In [13]:
chunk_size = 250
chunk_overlap = 25


char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=['\n\n', '\n', ' ', '']
)
char_split.split_text(texto)

['Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial',
 'máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.',
 'A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python',
 'básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?',
 'Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com',
 'elas se relacionam e com out

## Token Text Splitter

In [17]:
from langchain_text_splitters import TokenTextSplitter

chunk_size = 50
chunk_overlap = 5

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))

token_split = TokenTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)
token_split.split_text(texto)

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopq',
 'ijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

## Markdown

In [18]:
markdown_example = '''# Título do Markdown de exemplo
## Capítulo 1
Texto capítulo 1 e mais e mais texto.
Continuamos no capítulo 1!
## Capítulo 2
Texto capítulo 2 e mais e mais texto.
Continuamos no capítulo 2!
## Capítulo 3
### Seção 3.1
Texto capítulo 3 e mais e mais texto.
Continuamos no capítulo 3!
'''


In [19]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

header_to_split_on = [
    ('#', 'Header 1'),
    ('##', 'Header 2'),
    ('###', 'Header 3')
]

md_split = MarkdownHeaderTextSplitter(
    headers_to_split_on=header_to_split_on
)


In [20]:
md_split.split_text(markdown_example)

[Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 1'}, page_content='Texto capítulo 1 e mais e mais texto.\nContinuamos no capítulo 1!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 2'}, page_content='Texto capítulo 2 e mais e mais texto.\nContinuamos no capítulo 2!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 3', 'Header 3': 'Seção 3.1'}, page_content='Texto capítulo 3 e mais e mais texto.\nContinuamos no capítulo 3!')]

## Split Documents

In [None]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
)

caminho = 'samples/sample_pdf.pdf'
loader = PyPDFLoader(caminho)
docs = loader.load()
char_split.split_documents(docs)

[Document(metadata={'producer': 'iText 2.1.7 by 1T3XT', 'creator': 'JasperReports (declaracao_vinculo_graduacao)', 'creationdate': '2025-06-02T12:54:51-03:00', 'moddate': '2025-06-02T12:54:51-03:00', 'source': 'samples/sample_pdf.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='D E C L A R A Ç Ã O'),
 Document(metadata={'producer': 'iText 2.1.7 by 1T3XT', 'creator': 'JasperReports (declaracao_vinculo_graduacao)', 'creationdate': '2025-06-02T12:54:51-03:00', 'moddate': '2025-06-02T12:54:51-03:00', 'source': 'samples/sample_pdf.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='Declaramos, para os fins a que se'),
 Document(metadata={'producer': 'iText 2.1.7 by 1T3XT', 'creator': 'JasperReports (declaracao_vinculo_graduacao)', 'creationdate': '2025-06-02T12:54:51-03:00', 'moddate': '2025-06-02T12:54:51-03:00', 'source': 'samples/sample_pdf.pdf', 'total_pages': 1, 'page': 0, 'page_label': '1'}, page_content='a que se fizerem necessários, que LUCAS'),
