In [20]:
texto_completo = """
Python é uma linguagem de programação de alto nível conhecida por sua simplicidade, 
legibilidade e versatilidade. Seu design foi criado com o objetivo de ser fácil de 
aprender e usar, permitindo que programadores escrevam código de maneira mais 
intuitiva e eficiente. Ao contrário de outras linguagens, Python prioriza a 
legibilidade do código, o que facilita a compreensão e manutenção do software, 
mesmo por programadores que não são os autores do código original. 
Sua sintaxe clara, por exemplo, elimina a necessidade de muitos símbolos ou 
palavras-chave complicadas, tornando o código mais próximo da linguagem humana.
"""

In [21]:
from langchain_text_splitters import CharacterTextSplitter

In [22]:
chunk_size = 50
chunk_overlap = 0
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [23]:
import string
texto = "".join(f"{string.ascii_lowercase}" for _ in range(5))
len(texto)

130

In [24]:
texto

'abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz'

In [25]:
split = char_split.split_text(texto)
len(split)

1

In [26]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [27]:
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=""
)

In [28]:
split = char_split.split_text(texto)
len(split)

3

In [29]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'yzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuv',
 'wxyzabcdefghijklmnopqrstuvwxyz']

In [30]:
chunk_size = 50
chunk_overlap = 0
char_split = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator=""
)

split = char_split.split_text(texto_completo)
len(split)

13

In [31]:
split

['Python é uma linguagem de programação de alto nív',
 'el conhecida por sua simplicidade, \nlegibilidade e',
 'versatilidade. Seu design foi criado com o objeti',
 'vo de ser fácil de \naprender e usar, permitindo qu',
 'e programadores escrevam código de maneira mais \ni',
 'ntuitiva e eficiente. Ao contrário de outras lingu',
 'agens, Python prioriza a \nlegibilidade do código,',
 'o que facilita a compreensão e manutenção do softw',
 'are, \nmesmo por programadores que não são os autor',
 'es do código original. \nSua sintaxe clara, por exe',
 'mplo, elimina a necessidade de muitos símbolos ou',
 'palavras-chave complicadas, tornando o código mai',
 's próximo da linguagem humana.']

In [32]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [33]:
chunk_size = 50
chunk_overlap = 10
char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=[".", " ", ""]
)

split = char_split.split_text(texto)
len(split)

3

In [34]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwx',
 'opqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijkl',
 'cdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [35]:
chunk_size = 250
chunk_overlap = 10
char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=["\n\n","\n", " ", ""]
)

split = char_split.split_text(texto_completo)
len(split)

3

In [36]:
split

['Python é uma linguagem de programação de alto nível conhecida por sua simplicidade, \nlegibilidade e versatilidade. Seu design foi criado com o objetivo de ser fácil de \naprender e usar, permitindo que programadores escrevam código de maneira mais',
 'intuitiva e eficiente. Ao contrário de outras linguagens, Python prioriza a \nlegibilidade do código, o que facilita a compreensão e manutenção do software, \nmesmo por programadores que não são os autores do código original.',
 'Sua sintaxe clara, por exemplo, elimina a necessidade de muitos símbolos ou \npalavras-chave complicadas, tornando o código mais próximo da linguagem humana.']

In [37]:
from langchain_text_splitters import TokenTextSplitter

chunk_size = 50
chunk_overlap = 5
char_split = TokenTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)


In [38]:
split = char_split.split_text(texto)
len(split)

2

In [39]:
split

['abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijklmnopq',
 'ijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyz']

In [40]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 50
chunk_overlap = 10

char_split = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

In [41]:
arquivo = "files/apostila.pdf"
loader = PyPDFLoader(arquivo)
docs = loader.load()
docs[0]

Document(metadata={'producer': 'Microsoft® Word 2013', 'creator': 'Microsoft® Word 2013', 'creationdate': '2016-05-04T10:06:39-03:00', 'author': 'lucas', 'moddate': '2016-05-04T10:06:39-03:00', 'source': 'files/apostila.pdf', 'total_pages': 28, 'page': 0, 'page_label': '1'}, page_content='INTRODUÇÃO À PROGRAMAÇÃO \nCOM PYTHON \n \n \n \n \n \n \n \nPrograma de Educação Tutorial \nGrupo PET - ADS   \nIFSP -  Câmpus São Carlos')

In [42]:
split = char_split.split_documents(docs)
len(split)

1101