# Text Splitting

Nosso objetivo é dividir os nossos documentos de interesse em trechos menores, para fornecer à LLM apenas partes de texto relevantes para a pergunta do usuário. O problema então é:

> Como dividimos o texto garantindo a qualidade da informação?

Vamos dar um exemplo, digamos que temos o texto a seguir:

> "O carro novo da Fiat se chama Toro, tem 120 cavalos de potência e o preço sugerido é 135 mil reais."

Digamos que se fizéssemos um split do texto, ficaria da seguinte forma:

- > "O carro novo da Fiat se"
- > " chama Toro, tem 120 "
- > "cavalos de potência e "
- > "o preço sugerido é "
- > "135 mil reais."

Os trechos individualmente não possuem valor. Logo, se tentássemos utilizá-los em uma aplicação, ela estaria condenada desde o início, pois a separação do texto foi mal executada. 

Utilizar os parâmetros de overlap já auxiliam a minimizar este tipo de problema:

![image](assets/chunck_overlap.png)

Dessa forma, mantemos parte dos dados do trecho anterior no trecho seguinte, evitando saltos bruscos de conteúdo entre as partes.

In [17]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''
print(texto)


Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!




## CharacterTextSplitter

In [2]:
from dotenv import load_dotenv
load_dotenv()

from langchain.llms import OpenAI

llm = OpenAI(model='gpt-3.5-turbo-instruct')

  llm = OpenAI(model='gpt-3.5-turbo-instruct')


In [3]:
from langchain_text_splitters import CharacterTextSplitter

In [8]:
chunk_size = 50
chunk_overlap = 0

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=''
)

In [9]:
import string

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [10]:
splits = char_split.split_text(texto)
len(splits)

3

In [11]:
splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

In [14]:
chunk_size = 50
chunk_overlap = 10

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=''
)

In [15]:
import string

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [16]:
splits = char_split.split_text(texto)
len(splits)

splits

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [22]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''

chunk_size = 50
chunk_overlap = 10

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator='\n'
)

print(len(texto))

splits = char_split.split_text(texto)
len(splits)

splits

Created a chunk of size 311, which is longer than the specified 50
Created a chunk of size 348, which is longer than the specified 50


987


['Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.',
 'A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?',
 'Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!']

## RecursiveCharacterTextSplitter

In [23]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [27]:
chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=['.', ' ', '']
)

import string

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [28]:
char_split.split_text(texto)

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [34]:
texto = '''
Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial dessa estrutura de dados essencial para a programação em Python.

A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?

Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com outros tipos de dados de Python, como strings, tuplas e vetores. Vamos lá!

'''

chunk_size = 250
chunk_overlap = 25

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=['.\n\n', '\n', ' ', '']
)

char_split.split_text(texto)


['Já conhece a lista em Python? Quer entender como manipular listas e quais são suas principais utilidades e métodos? Sabe qual a diferença entre listas e tuplas? Este artigo responde responde isso e muito mais! Aproveite ao máximo todo o potencial',
 'máximo todo o potencial dessa estrutura de dados essencial para a programação em Python',
 '.',
 'A lista em Python é uma das estruturas de dados fundamentais da linguagem Python. Além de possuir grande versatilidade, as listas são extremamente relevantes para iniciantes na programação, por incorporar uma variedade de conceitos básicos de Python',
 'básicos de Python como mutabilidade, indexação, iteração e slicing. Mas você já conhece as listas de Python a fundo?',
 'Neste artigo, vamos nos aprofundar nas listas em Python e aprender a utilizá-las em seus códigos. Ao longo do texto, você aprenderá como criar e manipular uma lista em Python, quais os principais métodos de listas, e como elas se relacionam e com',
 'elas se relacionam e co

## TokenTextSplitter

In [35]:
from langchain_text_splitters import TokenTextSplitter

chunk_size = 50
chunk_overlap = 5

import string

texto = ''.join(f'{string.ascii_lowercase}' for _ in range(5))
print(texto)
print(len(texto))

abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz
130


In [36]:
token_split = TokenTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

token_split.split_text(texto)

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopq',
 'ijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

## MarkdownHeaderTextSplitter

In [37]:
markdown_example = '''# Título do Markdown de exemplo
## Capítulo 1
Texto capítulo 1 e mais e mais texto.
Continuamos no capítulo 1!
## Capítulo 2
Texto capítulo 2 e mais e mais texto.
Continuamos no capítulo 2!
## Capítulo 3
### Seção 3.1
Texto capítulo 3 e mais e mais texto.
Continuamos no capítulo 3!
'''

In [38]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

header_to_split_on = [
    ('#', 'Header 1'),
    ('##', 'Header 2'),
    ('###', 'Header 3')
]

md_split = MarkdownHeaderTextSplitter(
    headers_to_split_on=header_to_split_on
)

In [40]:
split = md_split.split_text(markdown_example)

split

[Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 1'}, page_content='Texto capítulo 1 e mais e mais texto.\nContinuamos no capítulo 1!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 2'}, page_content='Texto capítulo 2 e mais e mais texto.\nContinuamos no capítulo 2!'),
 Document(metadata={'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 3', 'Header 3': 'Seção 3.1'}, page_content='Texto capítulo 3 e mais e mais texto.\nContinuamos no capítulo 3!')]

In [45]:
for doc in split:
    print(doc.page_content)
    print(doc.metadata)
    print('=====================================================================================================')

Texto capítulo 1 e mais e mais texto.
Continuamos no capítulo 1!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 1'}
Texto capítulo 2 e mais e mais texto.
Continuamos no capítulo 2!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 2'}
Texto capítulo 3 e mais e mais texto.
Continuamos no capítulo 3!
{'Header 1': 'Título do Markdown de exemplo', 'Header 2': 'Capítulo 3', 'Header 3': 'Seção 3.1'}


## Split de documentos

In [55]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)


In [56]:
path = 'assets/Explorando o Universo das IAs com Hugging Face.pdf'
loader = PyPDFLoader(path)
docs = loader.load()

len(docs)


89

In [57]:
splits = char_split.split_documents(docs)

len(splits)

3087