# üìù **M√≥dulo 5: Text Splitting - Quebrando Textos Inteligentemente**

> *Como cortar um bolo em peda√ßos que fazem sentido*

---

## **Aula 5.1: Splitting B√°sico - Como Dividir Documentos**

---

### **T√°, mas por que precisamos quebrar textos?**

Imagine que voc√™ tem um livro de 500 p√°ginas e quer que a IA entenda cada cap√≠tulo. Voc√™ n√£o vai jogar o livro inteiro de uma vez! Voc√™ vai **dividir em peda√ßos que fazem sentido** - como cortar um bolo em fatias.

**üñºÔ∏è Sugest√£o de imagem**: Um livro sendo cortado em peda√ßos organizados

### **Setup Inicial - Preparando o Terreno**

**‚ö†Ô∏è IMPORTANTE**: Se voc√™ n√£o executou o notebook `00_setup_colab.ipynb` primeiro, execute a c√©lula abaixo para instalar as depend√™ncias.

In [None]:
# üöÄ SETUP GRATUITO PARA COLAB
# Execute esta c√©lula primeiro para configurar o ambiente!

# Instalando depend√™ncias (execute apenas se necess√°rio)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install tiktoken>=0.5.0
!pip install nltk>=3.8.0
!pip install spacy>=3.7.0

print("‚úÖ Depend√™ncias instaladas com sucesso!")
print("üöÄ Ambiente configurado para Text Splitting!")

In [None]:
# üìù IMPORTA√á√ïES PARA TEXT SPLITTING
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import TokenTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import MarkdownTextSplitter
from langchain.text_splitter import HTMLTextSplitter

import tiktoken
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Download recursos do NLTK (execute apenas uma vez)
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

print("‚úÖ Text Splitters importados com sucesso!")
print("üî™ Pronto para quebrar textos inteligentemente!")

### **Exemplo Pr√°tico - Texto de Exemplo**

Vamos criar um texto longo para demonstrar as diferentes t√©cnicas de splitting:

In [None]:
# ÔøΩÔøΩ EXEMPLO PR√ÅTICO: TEXTO LONGO PARA TESTES

texto_longo = """
# Introdu√ß√£o ao RAG - Retrieval Augmented Generation

## O que √© RAG?

RAG √© uma t√©cnica revolucion√°ria que combina busca de informa√ß√µes com gera√ß√£o de texto. Em vez de gerar respostas baseadas apenas no conhecimento pr√©vio, o RAG consulta documentos relevantes antes de responder.

## Por que RAG √© importante?

### 1. Respostas mais precisas
RAG permite que sistemas de IA forne√ßam respostas baseadas em informa√ß√µes atualizadas e espec√≠ficas, reduzindo significativamente as alucina√ß√µes.

### 2. Capacidade de usar informa√ß√µes privadas
Diferente dos LLMs tradicionais, o RAG pode acessar e usar documentos privados, manuais t√©cnicos, e informa√ß√µes espec√≠ficas da empresa.

### 3. Flexibilidade para diferentes dom√≠nios
O RAG pode ser adaptado para qualquer dom√≠nio - desde medicina at√© engenharia, passando por direito e educa√ß√£o.

## Componentes principais do RAG

### Document Loaders
Os Document Loaders s√£o respons√°veis por carregar informa√ß√µes de diferentes fontes. Eles podem ler PDFs, websites, documentos Word, e muito mais. √â como ter um "gar√ßom universal" que sabe ler qualquer tipo de menu.

### Embeddings
Embeddings transformam texto em n√∫meros que representam o significado das palavras. √â como criar um "mapa" onde palavras similares ficam pr√≥ximas umas das outras. Por exemplo, "gato" e "felino" teriam embeddings similares.

### Vector Stores
Vector Stores s√£o bancos de dados especializados em armazenar e buscar embeddings rapidamente. √â como uma biblioteca organizada por temas, onde voc√™ pode encontrar livros similares instantaneamente.

### LLMs (Large Language Models)
Os LLMs s√£o os modelos que geram as respostas finais. Eles recebem os documentos relevantes encontrados pelo sistema e geram uma resposta coerente e informativa.

## Fluxo completo do RAG

1. **Carregamento**: Documentos s√£o carregados usando Document Loaders
2. **Divis√£o**: Textos longos s√£o divididos em peda√ßos menores (chunks)
3. **Embedding**: Cada chunk √© convertido em um vetor num√©rico
4. **Armazenamento**: Os vetores s√£o armazenados em uma Vector Store
5. **Busca**: Quando uma pergunta √© feita, o sistema busca chunks similares
6. **Gera√ß√£o**: O LLM gera uma resposta baseada nos chunks encontrados

## Vantagens do RAG

### Precis√£o
RAG fornece respostas mais precisas porque baseia suas respostas em documentos espec√≠ficos e relevantes.

### Atualiza√ß√£o
Informa√ß√µes podem ser atualizadas simplesmente adicionando novos documentos ao sistema.

### Transpar√™ncia
√â poss√≠vel rastrear quais documentos foram usados para gerar cada resposta.

### Escalabilidade
O sistema pode lidar com grandes volumes de documentos sem perder performance.

## Casos de uso comuns

### Suporte ao cliente
Sistemas RAG podem responder perguntas sobre produtos, pol√≠ticas e procedimentos da empresa.

### Pesquisa acad√™mica
Pesquisadores podem fazer perguntas sobre papers cient√≠ficos e receber respostas baseadas em literatura espec√≠fica.

### Documenta√ß√£o t√©cnica
Desenvolvedores podem consultar documenta√ß√£o t√©cnica e receber respostas precisas sobre APIs e frameworks.

### An√°lise legal
Advogados podem consultar leis, regulamentos e precedentes para obter insights relevantes.

## Desafios e considera√ß√µes

### Qualidade dos documentos
A qualidade das respostas depende diretamente da qualidade dos documentos de entrada.

### Overlap de contexto
√â importante configurar adequadamente o tamanho dos chunks e o overlap para preservar contexto.

### Custo computacional
Sistemas RAG podem ser computacionalmente intensivos, especialmente com grandes volumes de dados.

### Lat√™ncia
A busca em vector stores pode introduzir lat√™ncia, especialmente em sistemas com muitos documentos.

## Conclus√£o

RAG representa um avan√ßo significativo na capacidade dos sistemas de IA de fornecer respostas precisas e informativas. Ao combinar busca inteligente com gera√ß√£o de texto, o RAG oferece uma solu√ß√£o robusta para aplica√ß√µes que requerem conhecimento espec√≠fico e atualizado.

A chave para o sucesso com RAG est√° na compreens√£o de cada componente e na configura√ß√£o adequada do sistema para o caso de uso espec√≠fico.
"""

print("‚úÖ Texto longo criado com sucesso!")
print(f"üìè Tamanho do texto: {len(texto_longo)} caracteres")
print(f"üìÑ Aproximadamente {len(texto_longo.split())} palavras")

### **1. Character Text Splitter - O Mais Simples**

Vamos come√ßar com o splitter mais b√°sico - ele simplesmente conta caracteres:

In [None]:
# ÔøΩÔøΩ CHARACTER TEXT SPLITTER - O MAIS SIMPLES

# Criando o splitter
character_splitter = CharacterTextSplitter(
    separator="\n",  # Quebra por quebras de linha
    chunk_size=500,  # Tamanho m√°ximo de cada chunk
    chunk_overlap=50,  # Sobreposi√ß√£o entre chunks
    length_function=len  # Fun√ß√£o para medir tamanho
)

# Dividindo o texto
chunks = character_splitter.split_text(texto_longo)

print(f"üî™ Texto dividido em {len(chunks)} chunks")
print(f"üìè Tamanho m√©dio dos chunks: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\nüìÑ Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conte√∫do: {chunk[:200]}...")
    print("-" * 50)

### **2. Recursive Character Text Splitter - O Mais Inteligente**

Este √© o splitter mais usado no RAG. Ele tenta quebrar o texto de forma inteligente, respeitando a estrutura:

In [None]:
# üî™ RECURSIVE CHARACTER TEXT SPLITTER - O MAIS INTELIGENTE

# Criando o splitter recursivo
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # Tamanho m√°ximo de cada chunk
    chunk_overlap=50,  # Sobreposi√ß√£o entre chunks
    length_function=len,  # Fun√ß√£o para medir tamanho
    separators=["\n\n", "\n", ". ", " ", ""]  # Ordem de prioridade para quebrar
)

# Dividindo o texto
chunks = recursive_splitter.split_text(texto_longo)

print(f"üî™ Texto dividido em {len(chunks)} chunks")
print(f"üìè Tamanho m√©dio dos chunks: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\nüìÑ Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conte√∫do: {chunk[:200]}...")
    print("-" * 50)

# Comparando com o anterior
print(f"\nüîÑ Compara√ß√£o:")
print(f"Character Splitter: {len(character_splitter.split_text(texto_longo))} chunks")
print(f"Recursive Splitter: {len(chunks)} chunks")

### **3. Token Text Splitter - Baseado em Tokens**

Este splitter usa tokens (unidades de texto) em vez de caracteres, o que √© mais preciso para LLMs:

In [None]:
# üî™ TOKEN TEXT SPLITTER - BASEADO EM TOKENS

# Criando o splitter de tokens
token_splitter = TokenTextSplitter(
    chunk_size=100,  # N√∫mero m√°ximo de tokens por chunk
    chunk_overlap=20,  # Sobreposi√ß√£o em tokens
    encoding_name="cl100k_base"  # Encoding do GPT-4
)

# Dividindo o texto
chunks = token_splitter.split_text(texto_longo)

print(f"üî™ Texto dividido em {len(chunks)} chunks")
print(f"üìè Tamanho m√©dio dos chunks: {sum(len(chunk.split()) for chunk in chunks) / len(chunks):.0f} palavras")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\nüìÑ Chunk {i+1}:")
    print(f"Palavras: {len(chunk.split())}")
    print(f"Conte√∫do: {chunk[:200]}...")
    print("-" * 50)

# Comparando diferentes encodings
encodings = ["cl100k_base", "gpt2"]
for encoding in encodings:
    splitter = TokenTextSplitter(chunk_size=100, encoding_name=encoding)
    chunks = splitter.split_text(texto_longo)
    print(f"Encoding {encoding}: {len(chunks)} chunks")

---

## **Aula 5.2: Splitting Avan√ßado - Preservando Contexto**

---

### **Por que Overlap √© importante?**

Imagine que voc√™ est√° cortando um filme em cenas. Se voc√™ cortar exatamente no meio de uma frase, perde o contexto! O **overlap** garante que informa√ß√µes importantes n√£o sejam perdidas.

**üñºÔ∏è Sugest√£o de imagem**: Cenas de filme com sobreposi√ß√£o para manter continuidade

### **1. Configurando Overlap Inteligente**

Vamos ver como o overlap afeta a qualidade dos chunks:

In [None]:
# ÔøΩÔøΩ OVERLAP INTELIGENTE - PRESERVANDO CONTEXTO

# Testando diferentes configura√ß√µes de overlap
overlaps = [0, 50, 100, 200]

for overlap in overlaps:
    print(f"\nüîÑ Testando overlap de {overlap} caracteres:")
    
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=overlap,
        separators=["\n\n", "\n", ". ", " ", ""]
    )
    
    chunks = splitter.split_text(texto_longo)
    
    print(f"   üìÑ N√∫mero de chunks: {len(chunks)}")
    print(f"   üìè Tamanho m√©dio: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")
    
    # Verificando sobreposi√ß√£o real
    if len(chunks) > 1:
        overlap_real = len(set(chunks[0][-100:]) & set(chunks[1][:100]))
        print(f"   ÔøΩÔøΩ Sobreposi√ß√£o real: ~{overlap_real} caracteres")

### **2. Splitters Especializados por Tipo de Documento**

Diferentes tipos de documento precisam de estrat√©gias diferentes de splitting:

In [None]:
# ÔøΩÔøΩ SPLITTERS ESPECIALIZADOS POR TIPO DE DOCUMENTO

# Markdown Splitter - para documentos com formata√ß√£o
markdown_text = """
# T√≠tulo Principal

## Subt√≠tulo 1
Este √© um par√°grafo com **texto em negrito** e *texto em it√°lico*.

### Sub-subt√≠tulo
- Item 1
- Item 2
- Item 3

## Subt√≠tulo 2
Outro par√°grafo com `c√≥digo inline` e [links](https://exemplo.com).

```python
# Bloco de c√≥digo
def exemplo():
    return "Hello World"
```
"""

markdown_splitter = MarkdownTextSplitter(chunk_size=300, chunk_overlap=50)
markdown_chunks = markdown_splitter.split_text(markdown_text)

print("üìÑ Markdown Splitter:")
for i, chunk in enumerate(markdown_chunks):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conte√∫do: {chunk[:150]}...")
    print("-" * 30)

# HTML Splitter - para p√°ginas web
html_text = """
<html>
<head><title>P√°gina de Exemplo</title></head>
<body>
<h1>T√≠tulo Principal</h1>
<p>Este √© um par√°grafo com <strong>texto em negrito</strong>.</p>
<div>
<h2>Subt√≠tulo</h2>
<p>Outro par√°grafo com <em>texto em it√°lico</em>.</p>
</div>
</body>
</html>
"""

html_splitter = HTMLTextSplitter(chunk_size=200, chunk_overlap=30)
html_chunks = html_splitter.split_text(html_text)

print("\nÔøΩÔøΩ HTML Splitter:")
for i, chunk in enumerate(html_chunks):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conte√∫do: {chunk[:150]}...")
    print("-" * 30)

### **3. Splitting com Preserva√ß√£o de Estrutura**

Vamos criar um splitter que preserva a estrutura hier√°rquica do documento:

In [None]:
# üèóÔ∏è SPLITTING COM PRESERVA√á√ÉO DE ESTRUTURA

def split_preserving_structure(text, chunk_size=500):
    """
    Splitter que tenta preservar a estrutura hier√°rquica do documento
    """
    lines = text.split('\n')
    chunks = []
    current_chunk = ""
    
    for line in lines:
        # Se a linha atual + a nova linha exceder o tamanho
        if len(current_chunk) + len(line) > chunk_size and current_chunk:
            chunks.append(current_chunk.strip())
            current_chunk = line + '\n'
        else:
            current_chunk += line + '\n'
    
    # Adiciona o √∫ltimo chunk
    if current_chunk.strip():
        chunks.append(current_chunk.strip())
    
    return chunks

# Testando o splitter personalizado
structured_chunks = split_preserving_structure(texto_longo, chunk_size=600)

print("ÔøΩÔøΩÔ∏è Splitter com Preserva√ß√£o de Estrutura:")
for i, chunk in enumerate(structured_chunks[:3]):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Linhas: {chunk.count(chr(10)) + 1}")
    print(f"Conte√∫do: {chunk[:200]}...")
    print("-" * 50)

### **4. An√°lise de Qualidade dos Chunks**

Vamos criar uma fun√ß√£o para analisar a qualidade dos chunks gerados:

In [None]:
# üìä AN√ÅLISE DE QUALIDADE DOS CHUNKS

def analisar_chunks(chunks, texto_original):
    """
    Analisa a qualidade dos chunks gerados
    """
    print(f"üìä An√°lise de Qualidade:")
    print(f"   üìÑ N√∫mero de chunks: {len(chunks)}")
    print(f"   üìè Tamanho m√©dio: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")
    print(f"   üìè Tamanho m√≠nimo: {min(len(chunk) for chunk in chunks)} caracteres")
    print(f"   üìè Tamanho m√°ximo: {max(len(chunk) for chunk in chunks)} caracteres")
    
    # Verificando se todo o texto original est√° coberto
    texto_coberto = "".join(chunks)
    cobertura = len(texto_coberto) / len(texto_original) * 100
    print(f"   ÔøΩÔøΩ Cobertura do texto original: {cobertura:.1f}%")
    
    # Verificando chunks vazios ou muito pequenos
    chunks_pequenos = [chunk for chunk in chunks if len(chunk.strip()) < 50]
    print(f"   ‚ö†Ô∏è Chunks muito pequenos (< 50 chars): {len(chunks_pequenos)}")
    
    # Verificando chunks que come√ßam/terminam no meio de frases
    chunks_quebrados = 0
    for chunk in chunks:
        if chunk and not chunk[0].isupper() and not chunk[0].isspace():
            chunks_quebrados += 1
        if chunk and not chunk[-1] in '.!?':
            chunks_quebrados += 1
    
    print(f"   üîó Chunks quebrados no meio de frases: {chunks_quebrados}")
    
    return {
        'num_chunks': len(chunks),
        'tamanho_medio': sum(len(chunk) for chunk in chunks) / len(chunks),
        'cobertura': cobertura,
        'chunks_pequenos': len(chunks_pequenos),
        'chunks_quebrados': chunks_quebrados
    }

# Testando diferentes configura√ß√µes
configuracoes = [
    ("Recursive (500/50)", RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)),
    ("Recursive (300/100)", RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=100)),
    ("Character (500/50)", CharacterTextSplitter(chunk_size=500, chunk_overlap=50)),
    ("Token (100/20)", TokenTextSplitter(chunk_size=100, chunk_overlap=20))
]

print("üî¨ Compara√ß√£o de Configura√ß√µes de Splitting:\n")

for nome, splitter in configuracoes:
    print(f"ÔøΩÔøΩ {nome}:")
    chunks = splitter.split_text(texto_longo)
    analise = analisar_chunks(chunks, texto_longo)
    print()

### **5. Exemplo Pr√°tico: An√°lise de Contratos Legais**

Vamos simular um caso real - an√°lise de contratos legais que precisam preservar contexto:

In [None]:
# ‚öñÔ∏è EXEMPLO PR√ÅTICO: AN√ÅLISE DE CONTRATOS LEGAIS

# Simulando um contrato legal
contrato_exemplo = """
CONTRATO DE PRESTA√á√ÉO DE SERVI√áOS

1. OBJETO DO CONTRATO
1.1. O presente contrato tem por objeto a presta√ß√£o de servi√ßos de consultoria em tecnologia da informa√ß√£o pela CONTRATADA em favor da CONTRATANTE.

1.2. Os servi√ßos ser√£o prestados conforme especifica√ß√µes t√©cnicas detalhadas no Anexo I, que faz parte integrante deste contrato.

2. PRAZO DE EXECU√á√ÉO
2.1. O prazo para execu√ß√£o dos servi√ßos ser√° de 12 (doze) meses, contados a partir da data de assinatura deste contrato.

2.2. O prazo poder√° ser prorrogado mediante acordo entre as partes, desde que justificado e documentado.

3. VALOR E FORMA DE PAGAMENTO
3.1. O valor total dos servi√ßos √© de R$ 100.000,00 (cem mil reais), a ser pago em 12 parcelas mensais de R$ 8.333,33 (oito mil, trezentos e trinta e tr√™s reais e trinta e tr√™s centavos).

3.2. O pagamento ser√° realizado at√© o dia 10 de cada m√™s, mediante emiss√£o de nota fiscal pela CONTRATADA.

4. OBRIGA√á√ïES DA CONTRATADA
4.1. Executar os servi√ßos com a m√°xima dilig√™ncia e efici√™ncia, observando as melhores pr√°ticas do mercado.

4.2. Manter sigilo sobre informa√ß√µes confidenciais da CONTRATANTE.

4.3. Fornecer relat√≥rios mensais de progresso dos servi√ßos.

5. OBRIGA√á√ïES DA CONTRATANTE
5.1. Fornecer todas as informa√ß√µes necess√°rias para a execu√ß√£o dos servi√ßos.

5.2. Realizar os pagamentos nos prazos estabelecidos.

5.3. Designar um representante para acompanhar a execu√ß√£o dos servi√ßos.

6. RESCIS√ÉO
6.1. Este contrato poder√° ser rescindido por qualquer das partes mediante aviso pr√©vio de 30 (trinta) dias.

6.2. Em caso de descumprimento das obriga√ß√µes por qualquer das partes, o contrato poder√° ser rescindido imediatamente.

7. DISPOSI√á√ïES GERAIS
7.1. Este contrato ser√° regido pelas leis brasileiras.

7.2. As partes elegem o foro da comarca de S√£o Paulo para dirimir quaisquer d√∫vidas ou lit√≠gios.

S√£o Paulo, 15 de janeiro de 2024.

CONTRATANTE: Empresa XYZ Ltda.
CNPJ: 12.345.678/0001-90
Representante: Jo√£o Silva

CONTRATADA: Consultoria Tech Ltda.
CNPJ: 98.765.432/0001-10
Representante: Maria Santos
"""

# Splitter otimizado para contratos legais
contrato_splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=100,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks_contrato = contrato_splitter.split_text(contrato_exemplo)

print("‚öñÔ∏è An√°lise de Contrato Legal:")
print(f"üìÑ Contrato dividido em {len(chunks_contrato)} chunks\n")

for i, chunk in enumerate(chunks_contrato):
    print(f"üìã Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conte√∫do: {chunk.strip()}")
    print("-" * 60)

# An√°lise de qualidade espec√≠fica para contratos
print("\nüìä An√°lise de Qualidade para Contratos:")
analisar_chunks(chunks_contrato, contrato_exemplo)

### **6. Dicas e Boas Pr√°ticas**

Aqui est√£o algumas dicas importantes para escolher a estrat√©gia de splitting:

In [None]:
# üí° DICAS E BOAS PR√ÅTICAS PARA TEXT SPLITTING

print("üí° DICAS E BOAS PR√ÅTICAS:")

dicas = [
    {
        "tipo": "üìÑ Documentos T√©cnicos",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "500-800",
        "overlap": "50-100",
        "justificativa": "Preserva par√°grafos e se√ß√µes t√©cnicas"
    },
    {
        "tipo": "‚öñÔ∏è Contratos Legais",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "400-600",
        "overlap": "100-150",
        "justificativa": "Mant√©m cl√°usulas completas e contexto legal"
    },
    {
        "tipo": "üìö Livros/Acad√™mico",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "800-1200",
        "overlap": "100-200",
        "justificativa": "Preserva cap√≠tulos e se√ß√µes completas"
    },
    {
        "tipo": "üåê P√°ginas Web",
        "splitter": "HTMLTextSplitter",
        "chunk_size": "300-500",
        "overlap": "50-100",
        "justificativa": "Respeita estrutura HTML e tags"
    },
    {
        "tipo": "üìù C√≥digo Fonte",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "600-1000",
        "overlap": "100-200",
        "justificativa": "Mant√©m fun√ß√µes e classes completas"
    }
]

for dica in dicas:
    print(f"\n{dica['tipo']}:")
    print(f"   üîß Splitter: {dica['splitter']}")
    print(f"   üìè Chunk Size: {dica['chunk_size']}")
    print(f"   üîÑ Overlap: {dica['overlap']}")
    print(f"   üí≠ Justificativa: {dica['justificativa']}")

print("\nÔøΩÔøΩ REGRAS GERAIS:")
print("1. Sempre teste diferentes configura√ß√µes")
print("2. Monitore a qualidade dos chunks gerados")
print("3. Use overlap para preservar contexto")
print("4. Considere o tipo de documento")
print("5. Balanceie tamanho do chunk vs. n√∫mero de chunks")

### **7. Exerc√≠cio Pr√°tico**

Agora √© sua vez! Vamos criar um sistema de splitting personalizado:

In [None]:
# ÔøΩÔøΩ EXERC√çCIO PR√ÅTICO: SPLITTING PERSONALIZADO

# 1. Crie um texto de exemplo (pode ser sobre qualquer assunto)
seu_texto = """
[SEU TEXTO AQUI - Substitua por um texto de pelo menos 1000 caracteres]

Exemplo de estrutura:
- Introdu√ß√£o
- Desenvolvimento com v√°rios par√°grafos
- Conclus√£o
- Refer√™ncias ou links
"""

# 2. Teste diferentes configura√ß√µes de RecursiveCharacterTextSplitter
print("ÔøΩÔøΩ Teste 1: RecursiveCharacterTextSplitter")
# Sua implementa√ß√£o aqui...

# 3. Compare com TokenTextSplitter
print("\nÔøΩÔøΩ Teste 2: TokenTextSplitter")
# Sua implementa√ß√£o aqui...

# 4. Analise a qualidade dos chunks
print("\nüìä An√°lise de Qualidade")
# Sua implementa√ß√£o aqui...

# 5. Escolha a melhor configura√ß√£o e justifique
print("\nüèÜ Melhor Configura√ß√£o")
print("Justificativa: ...")

### **8. Resumo do M√≥dulo**

Vamos recapitular o que aprendemos:

In [None]:
# ÔøΩÔøΩ RESUMO DO M√ìDULO 5: TEXT SPLITTING

resumo = {
    "conceitos_principais": [
        "Text Splitting √© essencial para processar documentos longos",
        "Overlap preserva contexto entre chunks",
        "Diferentes tipos de documento precisam de estrat√©gias diferentes"
    ],
    "splitters_aprendidos": [
        "CharacterTextSplitter - Mais simples, baseado em caracteres",
        "RecursiveCharacterTextSplitter - Mais inteligente, respeita estrutura",
        "TokenTextSplitter - Baseado em tokens, ideal para LLMs",
        "MarkdownTextSplitter - Para documentos com formata√ß√£o Markdown",
        "HTMLTextSplitter - Para p√°ginas web"
    ],
    "parametros_importantes": [
        "chunk_size - Tamanho m√°ximo de cada chunk",
        "chunk_overlap - Sobreposi√ß√£o entre chunks",
        "separators - Ordem de prioridade para quebrar texto",
        "length_function - Como medir o tamanho do texto"
    ],
    "boas_praticas": [
        "Sempre teste diferentes configura√ß√µes",
        "Monitore a qualidade dos chunks",
        "Use overlap para preservar contexto",
        "Considere o tipo de documento",
        "Balanceie tamanho vs. n√∫mero de chunks"
    ]
}

print("ÔøΩÔøΩ RESUMO DO M√ìDULO 5: TEXT SPLITTING")
print("=" * 50)

for categoria, itens in resumo.items():
    print(f"\nÔøΩÔøΩ {categoria.replace('_', ' ').title()}:")
    for item in itens:
        print(f"   ‚Ä¢ {item}")

print("\nüöÄ Pr√≥ximo m√≥dulo: Retrieval - Encontrando as Informa√ß√µes Certas!")
print("   Vamos aprender como buscar chunks relevantes de forma eficiente!")

---

## **üéØ Conclus√£o do M√≥dulo**

Neste m√≥dulo, aprendemos que **Text Splitting** √© como cortar um bolo em fatias que fazem sentido. N√£o √© apenas quebrar o texto, mas fazer isso de forma inteligente para preservar o contexto e a estrutura.

**Principais takeaways:**
- ‚úÖ RecursiveCharacterTextSplitter √© o mais usado no RAG
- ‚úÖ Overlap √© crucial para preservar contexto
- ‚úÖ Diferentes documentos precisam de estrat√©gias diferentes
- ‚úÖ Sempre teste e analise a qualidade dos chunks

**Pr√≥ximo passo:** No m√≥dulo 6, vamos aprender sobre **Retrieval** - como encontrar os chunks mais relevantes quando fazemos uma pergunta!

---

*üí° **Dica**: Experimente diferentes configura√ß√µes de splitting com seus pr√≥prios documentos para encontrar a que funciona melhor para seu caso de uso espec√≠fico.*