# Text splitting

## Bibliotecas

In [1]:
import string
from langchain_text_splitters import CharacterTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_text_splitters import TokenTextSplitter
from langchain_community.document_loaders.pdf import PyPDFLoader

## Aplicação

**Chunk_size**: define o tamanho de cada pedaço (em número de caracteres) quando o texto for dividido.

**Chunk_overlap**: Define quantos caracteres de sobreposição haverá entre os chunks, ou seja, controla a quantidade de texto compartilhado entre chunks consecutivos (quantos caracteres do final de um chunk serão repetidos no início do próximo)

Útil para tarefas como resumo, busca semântica ou perguntas e respostas. É importante que informações que ficam no “meio” entre dois pedaços não sejam perdidas. A sobreposição (chunk_overlap) ajuda nisso.
 

Exemplo:

texto = ABCDEFGHIJKLMNO

chunk_size = 5
ex: "ABCDE", "FGHIJ", "KLMNO"

chunk_overlap = 2
ex2: "ABCDE", "DEFGH", "FGHIJ", "IJKLM", "LMNO"

### Teste inicial

In [2]:
chunk_size = 50
chunk_overlap = 0 # sem sobreposição

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [3]:
# Criando texto de alfabeto

texto = "".join(f"{string.ascii_lowercase}" for _ in range(5))
len(texto)

130

In [4]:
texto

'abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz'

In [5]:
# Testando o split

char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=""
)

In [6]:
split = char_split.split_text(texto)
len(split)

3

In [7]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

### Testando com o texto do exemplo

In [8]:
# Texto modelo

texto_completo = """
Python é uma linguagem de programação de alto nível conhecida por sua simplicidade, 
legibilidade e versatilidade. Seu design foi criado com o objetivo de ser fácil de 
aprender e usar, permitindo que programadores escrevam código de maneira mais 
intuitiva e eficiente. Ao contrário de outras linguagens, Python prioriza a 
legibilidade do código, o que facilita a compreensão e manutenção do software, 
mesmo por programadores que não são os autores do código original. 
Sua sintaxe clara, por exemplo, elimina a necessidade de muitos símbolos ou 
palavras-chave complicadas, tornando o código mais próximo da linguagem humana.
"""

In [9]:
chunk_size = 50
chunk_overlap = 0
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=""
)

split = char_split.split_text(texto_completo)
len(split)

13

In [10]:
split

['Python é uma linguagem de programação de alto nív',
 'el conhecida por sua simplicidade, \nlegibilidade e',
 'versatilidade. Seu design foi criado com o objeti',
 'vo de ser fácil de \naprender e usar, permitindo qu',
 'e programadores escrevam código de maneira mais \ni',
 'ntuitiva e eficiente. Ao contrário de outras lingu',
 'agens, Python prioriza a \nlegibilidade do código,',
 'o que facilita a compreensão e manutenção do softw',
 'are, \nmesmo por programadores que não são os autor',
 'es do código original. \nSua sintaxe clara, por exe',
 'mplo, elimina a necessidade de muitos símbolos ou',
 'palavras-chave complicadas, tornando o código mai',
 's próximo da linguagem humana.']

### RecursiveCharacterTextSplitter (1)

O split de caractere recursivo é uma técnica que divide um texto longo em pedaços menores (chunks) tentando preservar o sentido das ideias. Ele faz isso de forma hierárquica: primeiro tenta dividir por parágrafos, depois por frases, depois por palavras e, se necessário, por caracteres. Isso garante que os chunks fiquem o mais naturais e compreensíveis possível, mesmo quando o texto é cortado.

In [11]:
chunk_size = 250
chunk_overlap = 10
char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=["\n\n","\n", " ", ""] # lista de separadores
)

split = char_split.split_text(texto_completo)
len(split)

3

In [12]:
split

['Python é uma linguagem de programação de alto nível conhecida por sua simplicidade, \nlegibilidade e versatilidade. Seu design foi criado com o objetivo de ser fácil de \naprender e usar, permitindo que programadores escrevam código de maneira mais',
 'intuitiva e eficiente. Ao contrário de outras linguagens, Python prioriza a \nlegibilidade do código, o que facilita a compreensão e manutenção do software, \nmesmo por programadores que não são os autores do código original.',
 'Sua sintaxe clara, por exemplo, elimina a necessidade de muitos símbolos ou \npalavras-chave complicadas, tornando o código mais próximo da linguagem humana.']

### TokenTextSplitter

In [13]:
chunk_size = 50
chunk_overlap = 5
char_split = TokenTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [14]:
texto

'abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz'

In [15]:
split = char_split.split_text(texto)
len(split)

2

In [16]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopq',
 'ijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

### RecursiveCharacterTextSplitter (2) - PDF

In [17]:
chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [18]:
arquivo = "files/apostila.pdf"
loader = PyPDFLoader(arquivo)
docs = loader.load()
docs[0]

Document(metadata={'producer': 'Microsoft® Word 2013', 'creator': 'Microsoft® Word 2013', 'creationdate': '2016-05-04T10:06:39-03:00', 'author': 'lucas', 'moddate': '2016-05-04T10:06:39-03:00', 'source': 'files/apostila.pdf', 'total_pages': 28, 'page': 0, 'page_label': '1'}, page_content='INTRODUÇÃO À PROGRAMAÇÃO \nCOM PYTHON  \n \n \n \n \n \n \n \nPrograma de Educação Tutorial  \nGrupo PET - ADS    \nIFSP -  Câmpus São Carlos')

In [19]:
split = char_split.split_documents(docs)
len(split)

1127