# Text Splitting

Nosso objetivo é dividir os nossos documentos de interesse em trechos menores, para fornecer a LLM apenas as partes de texto relevantes para a pergunta do usuário. O problema então é
> `Como dividimos o texto garantindo a qualidade da informação?`

Vamos dar um exemplo, digamos que temos o texto a seguir:

`"O carro novo da Fiat se chama Toro, tem 120 cavalos de potência e o preço sugerido é 135mil reais."`

Digamos que fizéssemos um split do texto que ficasse da seguinte forma:

- `"O carro novo da Fiat se"`
- `" chama Toro, tem 120 "`
- `"cavalos de potência e "`
- `"o preço sugerido é "`
- `"135mil reais."`

Vocês percebem que os trechos individulemente não possuem valor. Logo, se tentássemos utilizá-los em uma aplicação ela estaria condenada desde início, pois a separação do texto foi mal executada.


Utilizar os parâmetros de overlap já auxiliam para minimizar este tipo de problema:

![chunck overlap](arquivos/chunck_overlap.png)

Dessa forma, mantemos parte dos dados do trecho anterior no trecho seguinte, evitando saltos bruscos de conteúdo entre as partes.

In [49]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''
print(texto)


Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!




## CharacterTextSplitter

In [50]:
from langchain_text_splitters import CharacterTextSplitter

In [51]:
chunk_size = 50
chunk_overlap = 0

char_split = CharacterTextSplitter(
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap
)

In [52]:
import string

texto = ''.join(f"{string.ascii_lowercase}" for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [53]:
splits = char_split.split_text(texto)
len(splits)

1

In [54]:
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [55]:
chunk_size = 50
chunk_overlap = 0

char_split = CharacterTextSplitter(
  separator="",
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap
)

In [56]:
splits = char_split.split_text(texto)
len(splits)

3

In [57]:
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

In [58]:
chunk_size = 50
chunk_overlap = 10

char_split = CharacterTextSplitter(
  separator="",
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap
)

In [59]:
splits = char_split.split_text(texto)
len(splits)

3

In [60]:
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [61]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''

chunk_size = 50
chunk_overlap = 10

char_split = CharacterTextSplitter(
  separator=" ",
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap
)

splits = char_split.split_text(texto)
splits


['Já conhece a lista em Python? Quer entender como',
 'como manipular listas e quais são suas principais',
 'principais utilidades e métodos? Sabe qual a',
 'qual a diferença entre listas e tuplas? Este',
 'Este artigo responde responde isso e muito mais!',
 'mais! Aproveite ao máximo todo o potencial dessa',
 'dessa estrutura de dados essencial para a',
 'para a programação em Python.\n\nA lista em Python é',
 'Python é uma das estruturas de dados fundamentais',
 'da linguagem Python. Além de possuir grande',
 'grande versatilidade, as listas são extremamente',
 'relevantes para iniciantes na programação, por',
 'por incorporar uma variedade de conceitos básicos',
 'básicos de Python como mutabilidade, indexação,',
 'indexação, iteração e slicing. Mas você já conhece',
 'já conhece as listas de Python a fundo?\n\nNeste',
 'artigo, vamos nos aprofundar nas listas em Python',
 'em Python e aprender a utilizá-las em seus',
 'em seus códigos. Ao longo do texto, você aprenderá',
 'aprender

## RecursiveCharacterTextSplitter

In [62]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [63]:
chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap,
)

In [64]:
import string

texto = ''.join(f"{string.ascii_lowercase}" for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [65]:
char_split.split_text(texto)

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [66]:
chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap,
  separators=[".", " ", ""],
)

char_split.split_text(texto)

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [67]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''

chunk_size = 250
chunk_overlap = 25 # overlap de 10% do chunk size

char_split = RecursiveCharacterTextSplitter(
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap,
  separators=["\n\n", "\n", " ", ""],
)

char_split.split_text(texto)

['Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial',
 'máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.',
 'A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python',
 'básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?',
 'Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com',
 'elas se relacionam e com out

## TokenTextSplitter

In [68]:
from langchain_text_splitters import TokenTextSplitter

In [69]:
chunk_size = 50
chunk_overlap = 5 # overlap de 10% do chunk size

token_split = TokenTextSplitter(
  chunk_size=chunk_size,
  chunk_overlap=chunk_overlap,
)

In [70]:
import string

texto = ''.join(f"{string.ascii_lowercase}" for _ in range(5))
print(texto)
print(len(texto))

token_split.split_text(texto)

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopq',
 'ijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

## MarkdownHeaderTextSplitter

In [71]:
markdown_example = '''# Título do Markdown de exemplo
## Capítulo 1
Texto capítulo 1 e mais e mais texto.
Continuamos no capítulo 1!
## Capítulo 2
Texto capítulo 2 e mais e mais texto.
Continuamos no capítulo 2!
## Capítulo 3
### Seção 3.1
Texto capítulo 3 e mais e mais texto.
Continuamos no capítulo 3!
'''

In [72]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

header_to_split_on = [
  ("#", "Header 1"),
  ("##", "Header 2"),
  ("###", "Header 3"),
]

md_split = MarkdownHeaderTextSplitter(
  headers_to_split_on=header_to_split_on
)

In [73]:
split = md_split.split_text(markdown_example)

In [74]:
split

[Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 1'}, page_content='Texto capítulo 1 e mais e mais texto.\nContinuamos no capítulo 1!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 2'}, page_content='Texto capítulo 2 e mais e mais texto.\nContinuamos no capítulo 2!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 3', 'Header 3': 'Seção 3.1'}, page_content='Texto capítulo 3 e mais e mais texto.\nContinuamos no capítulo 3!')]

In [75]:
for doc in split:
  print(doc.page_content)
  print(doc.metadata)
  print("=================")

Texto capítulo 1 e mais e mais texto.
Continuamos no capítulo 1!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 1'}
Texto capítulo 2 e mais e mais texto.
Continuamos no capítulo 2!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 2'}
Texto capítulo 3 e mais e mais texto.
Continuamos no capítulo 3!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 3', 'Header 3': 'Seção 3.1'}


## Split de documentos

In [83]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 250
chunk_overlap = 25

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [84]:
caminho = "arquivos/Explorando o Universo das IAs com Hugging Face.pdf"
loader = PyPDFLoader(caminho)
docs = loader.load()

len(docs)

89

In [None]:
char_split.split_documents(docs)

In [86]:
len(splits)

24