### Character Text Splitter

In [2]:
from langchain_text_splitters import CharacterTextSplitter

text = "Experience the ultimate in mobile technology with the iPhone 15 Pro Max. Featuring a stunning 6.7-inch Super Retina XDR display, powerful A17"

char_splitter = CharacterTextSplitter(
    separator="",
    chunk_size=20,
    chunk_overlap=3
)

chunks = char_splitter.split_text(text)

print(len(chunks))
print(type(chunks))
print(chunks)

9
<class 'list'>
['Experience the ultim', 'timate in mobile tec', 'technology with the', 'he iPhone 15 Pro Max', 'Max. Featuring a stu', 'stunning 6.7-inch Su', 'Super Retina XDR di', 'display, powerful A', 'l A17']


In [3]:
for i in chunks:
    print(i)

Experience the ultim
timate in mobile tec
technology with the
he iPhone 15 Pro Max
Max. Featuring a stu
stunning 6.7-inch Su
Super Retina XDR di
display, powerful A
l A17


### Recursive Character Text Splitter

In [4]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter


path = './data/Docker-Docker-Compose.pdf'
pdf_loader = PyPDFLoader(path)
pdf_doc = pdf_loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", ".", " ", ""],
    chunk_size=500,
    chunk_overlap=30
)


chunks = text_splitter.split_documents(pdf_doc)

print(len(chunks))
print(type(chunks))
print(chunks)

21
<class 'list'>
[Document(metadata={'producer': 'Canva', 'creator': 'Canva', 'creationdate': '2024-06-08T20:07:57+00:00', 'title': 'Docker e Docker-Compose', 'moddate': '2024-06-08T20:07:57+00:00', 'keywords': 'DAGHk5FOye8,BADke69Kz-0', 'author': 'Jorge Aluizio TI', 'source': './data/Docker-Docker-Compose.pdf', 'total_pages': 8, 'page': 0, 'page_label': '1'}, page_content='O que é Docker?\nDocker é uma plataforma de software que permite criar, testar e implantar \naplicativos rapidamente. Ele utiliza containers, que são pacotes leves, portáteis e \nautossuficientes, que incluem tudo o que é necessário para executar um pedaço \nde software, incluindo código, runtime, bibliotecas e configurações.\nAqui estão alguns pontos-chave sobre o Docker:\nContainers: Ao contrário das máquinas virtuais, os containers compartilham o'), Document(metadata={'producer': 'Canva', 'creator': 'Canva', 'creationdate': '2024-06-08T20:07:57+00:00', 'title': 'Docker e Docker-Compose', 'moddate': '2024-06-08T2

In [13]:
for i in chunks:
    print(i.page_content)

O que é Docker?
Docker é uma plataforma de software que permite criar, testar e implantar 
aplicativos rapidamente. Ele utiliza containers, que são pacotes leves, portáteis e 
autossuficientes, que incluem tudo o que é necessário para executar um pedaço 
de software, incluindo código, runtime, bibliotecas e configurações.
Aqui estão alguns pontos-chave sobre o Docker:
Containers: Ao contrário das máquinas virtuais, os containers compartilham o
kernel do sistema operacional, mas são isolados uns dos outros e do sistema host, o 
que os torna mais leves e rápidos.
Portabilidade: Como os containers incluem todas as dependências necessárias 
para o aplicativo, eles podem ser executados em qualquer ambiente que tenha o 
Docker instalado, seja no seu laptop, em servidores de desenvolvimento, ou em 
ambientes de produção na nuvem.
Imagens Docker: Uma imagem Docker é um modelo estático que define um
contêiner Docker. As imagens podem ser criadas a partir de um Dockerfile, que é 
um script com u

### MardownHeader Text Splitter

In [20]:
from langchain_text_splitters import MarkdownHeaderTextSplitter
from langchain_community.document_loaders import TextLoader

path = './data/exemplo.md'
md_loader = TextLoader(path)
md_doc = md_loader.load()

md_text = md_doc[0].page_content

text_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=[("#", "Title"), ("##", "Section"), ("###", "Subsection")],
)

chunks = text_splitter.split_text(md_text)

print(len(chunks))
print(type(chunks))
print(chunks)

10
<class 'list'>
[Document(metadata={'Title': 'Guia Completo de Tecnologia Mobile', 'Section': 'IntroduÃ§Ã£o'}, page_content='Este documento apresenta uma visÃ£o geral sobre as tecnologias mobile mais recentes e suas aplicaÃ§Ãµes no mercado atual.'), Document(metadata={'Title': 'Guia Completo de Tecnologia Mobile', 'Section': 'Smartphones Premium', 'Subsection': 'iPhone 15 Pro Max'}, page_content='O iPhone 15 Pro Max representa o topo de linha da Apple, oferecendo recursos avanÃ§ados para usuÃ¡rios exigentes.  \n#### EspecificaÃ§Ãµes TÃ©cnicas  \n- Display: 6.7 polegadas Super Retina XDR\n- Processador: A17 Pro com 6 nÃºcleos\n- CÃ¢mera: Sistema triplo de 48MP\n- Bateria: AtÃ© 29 horas de reproduÃ§Ã£o de vÃdeo  \n#### Design e ConstruÃ§Ã£o  \nO dispositivo utiliza titÃ¢nio aeroespacial, tornando-o mais leve e resistente que os modelos anteriores.'), Document(metadata={'Title': 'Guia Completo de Tecnologia Mobile', 'Section': 'Smartphones Premium', 'Subsection': 'Samsung Galaxy S24 Ult