# 📝 **Módulo 5: Text Splitting - Quebrando Textos Inteligentemente**

> *Como cortar um bolo em pedaços que fazem sentido*

---

## **Aula 5.1: Splitting Básico - Como Dividir Documentos**

---

### **Tá, mas por que precisamos quebrar textos?**

Imagine que você tem um livro de 500 páginas e quer que a IA entenda cada capítulo. Você não vai jogar o livro inteiro de uma vez! Você vai **dividir em pedaços que fazem sentido** - como cortar um bolo em fatias.

**🖼️ Sugestão de imagem**: Um livro sendo cortado em pedaços organizados

### **Setup Inicial - Preparando o Terreno**

**⚠️ IMPORTANTE**: Se você não executou o notebook `00_setup_colab.ipynb` primeiro, execute a célula abaixo para instalar as dependências.

In [None]:
# 🚀 SETUP GRATUITO PARA COLAB
# Execute esta célula primeiro para configurar o ambiente!

# Instalando dependências (execute apenas se necessário)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install tiktoken>=0.5.0
!pip install nltk>=3.8.0
!pip install spacy>=3.7.0

print("✅ Dependências instaladas com sucesso!")
print("🚀 Ambiente configurado para Text Splitting!")

In [None]:
# 📝 IMPORTAÇÕES PARA TEXT SPLITTING
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import TokenTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import MarkdownTextSplitter
from langchain.text_splitter import HTMLTextSplitter

import tiktoken
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Download recursos do NLTK (execute apenas uma vez)
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

print("✅ Text Splitters importados com sucesso!")
print("🔪 Pronto para quebrar textos inteligentemente!")

### **Exemplo Prático - Texto de Exemplo**

Vamos criar um texto longo para demonstrar as diferentes técnicas de splitting:

In [None]:
# �� EXEMPLO PRÁTICO: TEXTO LONGO PARA TESTES

texto_longo = """
# Introdução ao RAG - Retrieval Augmented Generation

## O que é RAG?

RAG é uma técnica revolucionária que combina busca de informações com geração de texto. Em vez de gerar respostas baseadas apenas no conhecimento prévio, o RAG consulta documentos relevantes antes de responder.

## Por que RAG é importante?

### 1. Respostas mais precisas
RAG permite que sistemas de IA forneçam respostas baseadas em informações atualizadas e específicas, reduzindo significativamente as alucinações.

### 2. Capacidade de usar informações privadas
Diferente dos LLMs tradicionais, o RAG pode acessar e usar documentos privados, manuais técnicos, e informações específicas da empresa.

### 3. Flexibilidade para diferentes domínios
O RAG pode ser adaptado para qualquer domínio - desde medicina até engenharia, passando por direito e educação.

## Componentes principais do RAG

### Document Loaders
Os Document Loaders são responsáveis por carregar informações de diferentes fontes. Eles podem ler PDFs, websites, documentos Word, e muito mais. É como ter um "garçom universal" que sabe ler qualquer tipo de menu.

### Embeddings
Embeddings transformam texto em números que representam o significado das palavras. É como criar um "mapa" onde palavras similares ficam próximas umas das outras. Por exemplo, "gato" e "felino" teriam embeddings similares.

### Vector Stores
Vector Stores são bancos de dados especializados em armazenar e buscar embeddings rapidamente. É como uma biblioteca organizada por temas, onde você pode encontrar livros similares instantaneamente.

### LLMs (Large Language Models)
Os LLMs são os modelos que geram as respostas finais. Eles recebem os documentos relevantes encontrados pelo sistema e geram uma resposta coerente e informativa.

## Fluxo completo do RAG

1. **Carregamento**: Documentos são carregados usando Document Loaders
2. **Divisão**: Textos longos são divididos em pedaços menores (chunks)
3. **Embedding**: Cada chunk é convertido em um vetor numérico
4. **Armazenamento**: Os vetores são armazenados em uma Vector Store
5. **Busca**: Quando uma pergunta é feita, o sistema busca chunks similares
6. **Geração**: O LLM gera uma resposta baseada nos chunks encontrados

## Vantagens do RAG

### Precisão
RAG fornece respostas mais precisas porque baseia suas respostas em documentos específicos e relevantes.

### Atualização
Informações podem ser atualizadas simplesmente adicionando novos documentos ao sistema.

### Transparência
É possível rastrear quais documentos foram usados para gerar cada resposta.

### Escalabilidade
O sistema pode lidar com grandes volumes de documentos sem perder performance.

## Casos de uso comuns

### Suporte ao cliente
Sistemas RAG podem responder perguntas sobre produtos, políticas e procedimentos da empresa.

### Pesquisa acadêmica
Pesquisadores podem fazer perguntas sobre papers científicos e receber respostas baseadas em literatura específica.

### Documentação técnica
Desenvolvedores podem consultar documentação técnica e receber respostas precisas sobre APIs e frameworks.

### Análise legal
Advogados podem consultar leis, regulamentos e precedentes para obter insights relevantes.

## Desafios e considerações

### Qualidade dos documentos
A qualidade das respostas depende diretamente da qualidade dos documentos de entrada.

### Overlap de contexto
É importante configurar adequadamente o tamanho dos chunks e o overlap para preservar contexto.

### Custo computacional
Sistemas RAG podem ser computacionalmente intensivos, especialmente com grandes volumes de dados.

### Latência
A busca em vector stores pode introduzir latência, especialmente em sistemas com muitos documentos.

## Conclusão

RAG representa um avanço significativo na capacidade dos sistemas de IA de fornecer respostas precisas e informativas. Ao combinar busca inteligente com geração de texto, o RAG oferece uma solução robusta para aplicações que requerem conhecimento específico e atualizado.

A chave para o sucesso com RAG está na compreensão de cada componente e na configuração adequada do sistema para o caso de uso específico.
"""

print("✅ Texto longo criado com sucesso!")
print(f"📏 Tamanho do texto: {len(texto_longo)} caracteres")
print(f"📄 Aproximadamente {len(texto_longo.split())} palavras")

### **1. Character Text Splitter - O Mais Simples**

Vamos começar com o splitter mais básico - ele simplesmente conta caracteres:

In [None]:
# �� CHARACTER TEXT SPLITTER - O MAIS SIMPLES

# Criando o splitter
character_splitter = CharacterTextSplitter(
    separator="\n",  # Quebra por quebras de linha
    chunk_size=500,  # Tamanho máximo de cada chunk
    chunk_overlap=50,  # Sobreposição entre chunks
    length_function=len  # Função para medir tamanho
)

# Dividindo o texto
chunks = character_splitter.split_text(texto_longo)

print(f"🔪 Texto dividido em {len(chunks)} chunks")
print(f"📏 Tamanho médio dos chunks: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\n📄 Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conteúdo: {chunk[:200]}...")
    print("-" * 50)

### **2. Recursive Character Text Splitter - O Mais Inteligente**

Este é o splitter mais usado no RAG. Ele tenta quebrar o texto de forma inteligente, respeitando a estrutura:

In [None]:
# 🔪 RECURSIVE CHARACTER TEXT SPLITTER - O MAIS INTELIGENTE

# Criando o splitter recursivo
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # Tamanho máximo de cada chunk
    chunk_overlap=50,  # Sobreposição entre chunks
    length_function=len,  # Função para medir tamanho
    separators=["\n\n", "\n", ". ", " ", ""]  # Ordem de prioridade para quebrar
)

# Dividindo o texto
chunks = recursive_splitter.split_text(texto_longo)

print(f"🔪 Texto dividido em {len(chunks)} chunks")
print(f"📏 Tamanho médio dos chunks: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\n📄 Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conteúdo: {chunk[:200]}...")
    print("-" * 50)

# Comparando com o anterior
print(f"\n🔄 Comparação:")
print(f"Character Splitter: {len(character_splitter.split_text(texto_longo))} chunks")
print(f"Recursive Splitter: {len(chunks)} chunks")

### **3. Token Text Splitter - Baseado em Tokens**

Este splitter usa tokens (unidades de texto) em vez de caracteres, o que é mais preciso para LLMs:

In [None]:
# 🔪 TOKEN TEXT SPLITTER - BASEADO EM TOKENS

# Criando o splitter de tokens
token_splitter = TokenTextSplitter(
    chunk_size=100,  # Número máximo de tokens por chunk
    chunk_overlap=20,  # Sobreposição em tokens
    encoding_name="cl100k_base"  # Encoding do GPT-4
)

# Dividindo o texto
chunks = token_splitter.split_text(texto_longo)

print(f"🔪 Texto dividido em {len(chunks)} chunks")
print(f"📏 Tamanho médio dos chunks: {sum(len(chunk.split()) for chunk in chunks) / len(chunks):.0f} palavras")

# Mostrando alguns chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\n📄 Chunk {i+1}:")
    print(f"Palavras: {len(chunk.split())}")
    print(f"Conteúdo: {chunk[:200]}...")
    print("-" * 50)

# Comparando diferentes encodings
encodings = ["cl100k_base", "gpt2"]
for encoding in encodings:
    splitter = TokenTextSplitter(chunk_size=100, encoding_name=encoding)
    chunks = splitter.split_text(texto_longo)
    print(f"Encoding {encoding}: {len(chunks)} chunks")

---

## **Aula 5.2: Splitting Avançado - Preservando Contexto**

---

### **Por que Overlap é importante?**

Imagine que você está cortando um filme em cenas. Se você cortar exatamente no meio de uma frase, perde o contexto! O **overlap** garante que informações importantes não sejam perdidas.

**🖼️ Sugestão de imagem**: Cenas de filme com sobreposição para manter continuidade

### **1. Configurando Overlap Inteligente**

Vamos ver como o overlap afeta a qualidade dos chunks:

In [None]:
# �� OVERLAP INTELIGENTE - PRESERVANDO CONTEXTO

# Testando diferentes configurações de overlap
overlaps = [0, 50, 100, 200]

for overlap in overlaps:
    print(f"\n🔄 Testando overlap de {overlap} caracteres:")
    
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=overlap,
        separators=["\n\n", "\n", ". ", " ", ""]
    )
    
    chunks = splitter.split_text(texto_longo)
    
    print(f"   📄 Número de chunks: {len(chunks)}")
    print(f"   📏 Tamanho médio: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")
    
    # Verificando sobreposição real
    if len(chunks) > 1:
        overlap_real = len(set(chunks[0][-100:]) & set(chunks[1][:100]))
        print(f"   �� Sobreposição real: ~{overlap_real} caracteres")

### **2. Splitters Especializados por Tipo de Documento**

Diferentes tipos de documento precisam de estratégias diferentes de splitting:

In [None]:
# �� SPLITTERS ESPECIALIZADOS POR TIPO DE DOCUMENTO

# Markdown Splitter - para documentos com formatação
markdown_text = """
# Título Principal

## Subtítulo 1
Este é um parágrafo com **texto em negrito** e *texto em itálico*.

### Sub-subtítulo
- Item 1
- Item 2
- Item 3

## Subtítulo 2
Outro parágrafo com `código inline` e [links](https://exemplo.com).

```python
# Bloco de código
def exemplo():
    return "Hello World"
```
"""

markdown_splitter = MarkdownTextSplitter(chunk_size=300, chunk_overlap=50)
markdown_chunks = markdown_splitter.split_text(markdown_text)

print("📄 Markdown Splitter:")
for i, chunk in enumerate(markdown_chunks):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conteúdo: {chunk[:150]}...")
    print("-" * 30)

# HTML Splitter - para páginas web
html_text = """
<html>
<head><title>Página de Exemplo</title></head>
<body>
<h1>Título Principal</h1>
<p>Este é um parágrafo com <strong>texto em negrito</strong>.</p>
<div>
<h2>Subtítulo</h2>
<p>Outro parágrafo com <em>texto em itálico</em>.</p>
</div>
</body>
</html>
"""

html_splitter = HTMLTextSplitter(chunk_size=200, chunk_overlap=30)
html_chunks = html_splitter.split_text(html_text)

print("\n�� HTML Splitter:")
for i, chunk in enumerate(html_chunks):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conteúdo: {chunk[:150]}...")
    print("-" * 30)

### **3. Splitting com Preservação de Estrutura**

Vamos criar um splitter que preserva a estrutura hierárquica do documento:

In [None]:
# 🏗️ SPLITTING COM PRESERVAÇÃO DE ESTRUTURA

def split_preserving_structure(text, chunk_size=500):
    """
    Splitter que tenta preservar a estrutura hierárquica do documento
    """
    lines = text.split('\n')
    chunks = []
    current_chunk = ""
    
    for line in lines:
        # Se a linha atual + a nova linha exceder o tamanho
        if len(current_chunk) + len(line) > chunk_size and current_chunk:
            chunks.append(current_chunk.strip())
            current_chunk = line + '\n'
        else:
            current_chunk += line + '\n'
    
    # Adiciona o último chunk
    if current_chunk.strip():
        chunks.append(current_chunk.strip())
    
    return chunks

# Testando o splitter personalizado
structured_chunks = split_preserving_structure(texto_longo, chunk_size=600)

print("��️ Splitter com Preservação de Estrutura:")
for i, chunk in enumerate(structured_chunks[:3]):
    print(f"\nChunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Linhas: {chunk.count(chr(10)) + 1}")
    print(f"Conteúdo: {chunk[:200]}...")
    print("-" * 50)

### **4. Análise de Qualidade dos Chunks**

Vamos criar uma função para analisar a qualidade dos chunks gerados:

In [None]:
# 📊 ANÁLISE DE QUALIDADE DOS CHUNKS

def analisar_chunks(chunks, texto_original):
    """
    Analisa a qualidade dos chunks gerados
    """
    print(f"📊 Análise de Qualidade:")
    print(f"   📄 Número de chunks: {len(chunks)}")
    print(f"   📏 Tamanho médio: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} caracteres")
    print(f"   📏 Tamanho mínimo: {min(len(chunk) for chunk in chunks)} caracteres")
    print(f"   📏 Tamanho máximo: {max(len(chunk) for chunk in chunks)} caracteres")
    
    # Verificando se todo o texto original está coberto
    texto_coberto = "".join(chunks)
    cobertura = len(texto_coberto) / len(texto_original) * 100
    print(f"   �� Cobertura do texto original: {cobertura:.1f}%")
    
    # Verificando chunks vazios ou muito pequenos
    chunks_pequenos = [chunk for chunk in chunks if len(chunk.strip()) < 50]
    print(f"   ⚠️ Chunks muito pequenos (< 50 chars): {len(chunks_pequenos)}")
    
    # Verificando chunks que começam/terminam no meio de frases
    chunks_quebrados = 0
    for chunk in chunks:
        if chunk and not chunk[0].isupper() and not chunk[0].isspace():
            chunks_quebrados += 1
        if chunk and not chunk[-1] in '.!?':
            chunks_quebrados += 1
    
    print(f"   🔗 Chunks quebrados no meio de frases: {chunks_quebrados}")
    
    return {
        'num_chunks': len(chunks),
        'tamanho_medio': sum(len(chunk) for chunk in chunks) / len(chunks),
        'cobertura': cobertura,
        'chunks_pequenos': len(chunks_pequenos),
        'chunks_quebrados': chunks_quebrados
    }

# Testando diferentes configurações
configuracoes = [
    ("Recursive (500/50)", RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)),
    ("Recursive (300/100)", RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=100)),
    ("Character (500/50)", CharacterTextSplitter(chunk_size=500, chunk_overlap=50)),
    ("Token (100/20)", TokenTextSplitter(chunk_size=100, chunk_overlap=20))
]

print("🔬 Comparação de Configurações de Splitting:\n")

for nome, splitter in configuracoes:
    print(f"�� {nome}:")
    chunks = splitter.split_text(texto_longo)
    analise = analisar_chunks(chunks, texto_longo)
    print()

### **5. Exemplo Prático: Análise de Contratos Legais**

Vamos simular um caso real - análise de contratos legais que precisam preservar contexto:

In [None]:
# ⚖️ EXEMPLO PRÁTICO: ANÁLISE DE CONTRATOS LEGAIS

# Simulando um contrato legal
contrato_exemplo = """
CONTRATO DE PRESTAÇÃO DE SERVIÇOS

1. OBJETO DO CONTRATO
1.1. O presente contrato tem por objeto a prestação de serviços de consultoria em tecnologia da informação pela CONTRATADA em favor da CONTRATANTE.

1.2. Os serviços serão prestados conforme especificações técnicas detalhadas no Anexo I, que faz parte integrante deste contrato.

2. PRAZO DE EXECUÇÃO
2.1. O prazo para execução dos serviços será de 12 (doze) meses, contados a partir da data de assinatura deste contrato.

2.2. O prazo poderá ser prorrogado mediante acordo entre as partes, desde que justificado e documentado.

3. VALOR E FORMA DE PAGAMENTO
3.1. O valor total dos serviços é de R$ 100.000,00 (cem mil reais), a ser pago em 12 parcelas mensais de R$ 8.333,33 (oito mil, trezentos e trinta e três reais e trinta e três centavos).

3.2. O pagamento será realizado até o dia 10 de cada mês, mediante emissão de nota fiscal pela CONTRATADA.

4. OBRIGAÇÕES DA CONTRATADA
4.1. Executar os serviços com a máxima diligência e eficiência, observando as melhores práticas do mercado.

4.2. Manter sigilo sobre informações confidenciais da CONTRATANTE.

4.3. Fornecer relatórios mensais de progresso dos serviços.

5. OBRIGAÇÕES DA CONTRATANTE
5.1. Fornecer todas as informações necessárias para a execução dos serviços.

5.2. Realizar os pagamentos nos prazos estabelecidos.

5.3. Designar um representante para acompanhar a execução dos serviços.

6. RESCISÃO
6.1. Este contrato poderá ser rescindido por qualquer das partes mediante aviso prévio de 30 (trinta) dias.

6.2. Em caso de descumprimento das obrigações por qualquer das partes, o contrato poderá ser rescindido imediatamente.

7. DISPOSIÇÕES GERAIS
7.1. Este contrato será regido pelas leis brasileiras.

7.2. As partes elegem o foro da comarca de São Paulo para dirimir quaisquer dúvidas ou litígios.

São Paulo, 15 de janeiro de 2024.

CONTRATANTE: Empresa XYZ Ltda.
CNPJ: 12.345.678/0001-90
Representante: João Silva

CONTRATADA: Consultoria Tech Ltda.
CNPJ: 98.765.432/0001-10
Representante: Maria Santos
"""

# Splitter otimizado para contratos legais
contrato_splitter = RecursiveCharacterTextSplitter(
    chunk_size=400,
    chunk_overlap=100,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks_contrato = contrato_splitter.split_text(contrato_exemplo)

print("⚖️ Análise de Contrato Legal:")
print(f"📄 Contrato dividido em {len(chunks_contrato)} chunks\n")

for i, chunk in enumerate(chunks_contrato):
    print(f"📋 Chunk {i+1}:")
    print(f"Tamanho: {len(chunk)} caracteres")
    print(f"Conteúdo: {chunk.strip()}")
    print("-" * 60)

# Análise de qualidade específica para contratos
print("\n📊 Análise de Qualidade para Contratos:")
analisar_chunks(chunks_contrato, contrato_exemplo)

### **6. Dicas e Boas Práticas**

Aqui estão algumas dicas importantes para escolher a estratégia de splitting:

In [None]:
# 💡 DICAS E BOAS PRÁTICAS PARA TEXT SPLITTING

print("💡 DICAS E BOAS PRÁTICAS:")

dicas = [
    {
        "tipo": "📄 Documentos Técnicos",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "500-800",
        "overlap": "50-100",
        "justificativa": "Preserva parágrafos e seções técnicas"
    },
    {
        "tipo": "⚖️ Contratos Legais",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "400-600",
        "overlap": "100-150",
        "justificativa": "Mantém cláusulas completas e contexto legal"
    },
    {
        "tipo": "📚 Livros/Acadêmico",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "800-1200",
        "overlap": "100-200",
        "justificativa": "Preserva capítulos e seções completas"
    },
    {
        "tipo": "🌐 Páginas Web",
        "splitter": "HTMLTextSplitter",
        "chunk_size": "300-500",
        "overlap": "50-100",
        "justificativa": "Respeita estrutura HTML e tags"
    },
    {
        "tipo": "📝 Código Fonte",
        "splitter": "RecursiveCharacterTextSplitter",
        "chunk_size": "600-1000",
        "overlap": "100-200",
        "justificativa": "Mantém funções e classes completas"
    }
]

for dica in dicas:
    print(f"\n{dica['tipo']}:")
    print(f"   🔧 Splitter: {dica['splitter']}")
    print(f"   📏 Chunk Size: {dica['chunk_size']}")
    print(f"   🔄 Overlap: {dica['overlap']}")
    print(f"   💭 Justificativa: {dica['justificativa']}")

print("\n�� REGRAS GERAIS:")
print("1. Sempre teste diferentes configurações")
print("2. Monitore a qualidade dos chunks gerados")
print("3. Use overlap para preservar contexto")
print("4. Considere o tipo de documento")
print("5. Balanceie tamanho do chunk vs. número de chunks")

### **7. Exercício Prático**

Agora é sua vez! Vamos criar um sistema de splitting personalizado:

In [None]:
# �� EXERCÍCIO PRÁTICO: SPLITTING PERSONALIZADO

# 1. Crie um texto de exemplo (pode ser sobre qualquer assunto)
seu_texto = """
[SEU TEXTO AQUI - Substitua por um texto de pelo menos 1000 caracteres]

Exemplo de estrutura:
- Introdução
- Desenvolvimento com vários parágrafos
- Conclusão
- Referências ou links
"""

# 2. Teste diferentes configurações de RecursiveCharacterTextSplitter
print("�� Teste 1: RecursiveCharacterTextSplitter")
# Sua implementação aqui...

# 3. Compare com TokenTextSplitter
print("\n�� Teste 2: TokenTextSplitter")
# Sua implementação aqui...

# 4. Analise a qualidade dos chunks
print("\n📊 Análise de Qualidade")
# Sua implementação aqui...

# 5. Escolha a melhor configuração e justifique
print("\n🏆 Melhor Configuração")
print("Justificativa: ...")

### **8. Resumo do Módulo**

Vamos recapitular o que aprendemos:

In [None]:
# �� RESUMO DO MÓDULO 5: TEXT SPLITTING

resumo = {
    "conceitos_principais": [
        "Text Splitting é essencial para processar documentos longos",
        "Overlap preserva contexto entre chunks",
        "Diferentes tipos de documento precisam de estratégias diferentes"
    ],
    "splitters_aprendidos": [
        "CharacterTextSplitter - Mais simples, baseado em caracteres",
        "RecursiveCharacterTextSplitter - Mais inteligente, respeita estrutura",
        "TokenTextSplitter - Baseado em tokens, ideal para LLMs",
        "MarkdownTextSplitter - Para documentos com formatação Markdown",
        "HTMLTextSplitter - Para páginas web"
    ],
    "parametros_importantes": [
        "chunk_size - Tamanho máximo de cada chunk",
        "chunk_overlap - Sobreposição entre chunks",
        "separators - Ordem de prioridade para quebrar texto",
        "length_function - Como medir o tamanho do texto"
    ],
    "boas_praticas": [
        "Sempre teste diferentes configurações",
        "Monitore a qualidade dos chunks",
        "Use overlap para preservar contexto",
        "Considere o tipo de documento",
        "Balanceie tamanho vs. número de chunks"
    ]
}

print("�� RESUMO DO MÓDULO 5: TEXT SPLITTING")
print("=" * 50)

for categoria, itens in resumo.items():
    print(f"\n�� {categoria.replace('_', ' ').title()}:")
    for item in itens:
        print(f"   • {item}")

print("\n🚀 Próximo módulo: Retrieval - Encontrando as Informações Certas!")
print("   Vamos aprender como buscar chunks relevantes de forma eficiente!")

---

## **🎯 Conclusão do Módulo**

Neste módulo, aprendemos que **Text Splitting** é como cortar um bolo em fatias que fazem sentido. Não é apenas quebrar o texto, mas fazer isso de forma inteligente para preservar o contexto e a estrutura.

**Principais takeaways:**
- ✅ RecursiveCharacterTextSplitter é o mais usado no RAG
- ✅ Overlap é crucial para preservar contexto
- ✅ Diferentes documentos precisam de estratégias diferentes
- ✅ Sempre teste e analise a qualidade dos chunks

**Próximo passo:** No módulo 6, vamos aprender sobre **Retrieval** - como encontrar os chunks mais relevantes quando fazemos uma pergunta!

---

*💡 **Dica**: Experimente diferentes configurações de splitting com seus próprios documentos para encontrar a que funciona melhor para seu caso de uso específico.*