# 📝 **Módulo 5: Text Splitting - Quebrando Textos Inteligentemente**

> *Como cortar um bolo em pedaços que fazem sentido*

---

## **Aula 5.1: Por que Precisamos Quebrar Textos?**

---

### **Tá, mas por que precisamos quebrar textos?**

Imagine que você tem um **livro gigante de 1000 páginas** e quer que a IA entenda cada capítulo. Você não vai jogar o livro inteiro de uma vez na cabeça da IA! É como tentar engolir um bolo inteiro - vai dar indigestão! 😅

**🖼️ Sugestão de imagem**: Um livro sendo cortado em pedaços organizados, como um bolo

**Por que Text Splitting é importante?**

É como um **chef experiente** que sabe cortar ingredientes no tamanho certo:
- 🍎 **Maçã inteira**: Difícil de processar
- 🍎 **Pedacinhos**: Fácil de mastigar e digerir

### **Analogia do Dia a Dia**

Text Splitting é como **organizar uma biblioteca**:
- 📚 **Livro inteiro**: Difícil de encontrar informação específica
- 📖 **Capítulos separados**: Fácil de navegar e encontrar o que precisa
- 📄 **Páginas organizadas**: Acesso rápido a qualquer informação

**Sem Text Splitting** seria como ter uma biblioteca onde todos os livros estão colados uns nos outros! 📚

---

### **Setup Inicial - Preparando o Terreno**

**⚠️ IMPORTANTE**: Se você não executou o notebook `00_setup_colab.ipynb` primeiro, execute a célula abaixo para instalar as dependências.

In [None]:
# 🚀 SETUP GRATUITO PARA COLAB
# Execute esta célula primeiro para configurar o ambiente!

# Instalando dependências (execute apenas se necessário)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install tiktoken>=0.5.0
!pip install nltk>=3.8.0
!pip install spacy>=3.7.0

print("✅ Dependências instaladas com sucesso!")
print("🔪 Pronto para quebrar textos inteligentemente!")

In [None]:
# 📝 IMPORTAÇÕES PARA TEXT SPLITTING
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import TokenTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import MarkdownTextSplitter
from langchain.text_splitter import HTMLTextSplitter

import tiktoken
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Download recursos do NLTK (execute apenas uma vez)
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

print("✅ Text Splitters importados com sucesso!")
print("🔪 Pronto para quebrar textos inteligentemente!")

### **Exemplo Prático - Criando Nosso "Bolo" de Texto**

Vamos criar um texto longo para demonstrar as diferentes técnicas de splitting. É como preparar um bolo gigante para depois cortá-lo! 🍰

In [None]:
# 🍰 EXEMPLO PRÁTICO: CRIANDO NOSSO "BOLO" DE TEXTO

# Criando um texto longo sobre RAG (nosso "bolo gigante")
texto_longo = """
# Introdução ao RAG - Retrieval Augmented Generation

## O que é RAG?

RAG é uma técnica revolucionária que combina busca de informações com geração de texto. Em vez de gerar respostas baseadas apenas no conhecimento prévio, o RAG consulta documentos relevantes antes de responder.

## Por que RAG é importante?

### 1. Respostas mais precisas
RAG permite que sistemas de IA forneçam respostas baseadas em informações atualizadas e específicas, reduzindo significativamente as alucinações. É como ter um assistente que sempre consulta os "livros" antes de responder.

### 2. Capacidade de usar informações privadas
Diferente dos LLMs tradicionais, o RAG pode acessar e usar documentos privados, manuais técnicos, e informações específicas da empresa. É como ter acesso a uma biblioteca privada.

### 3. Flexibilidade para diferentes domínios
O RAG pode ser adaptado para qualquer domínio - desde medicina até engenharia, passando por direito e educação. É como um tradutor universal para qualquer área do conhecimento.

## Componentes principais do RAG

### Document Loaders
Os Document Loaders são responsáveis por carregar informações de diferentes fontes. Eles podem ler PDFs, websites, documentos Word, e muito mais. É como ter um "garçom universal" que sabe ler qualquer tipo de menu.

### Embeddings
Embeddings transformam texto em números que o computador entende. É como criar um "mapa" onde palavras similares ficam próximas. Por exemplo, "gato" e "felino" ficam próximos no espaço de embeddings.

### Vector Stores
Vector Stores são como bibliotecas super inteligentes que organizam informações por similaridade. Em vez de ordem alfabética, eles organizam por significado. É como ter uma biblioteca onde livros sobre "gatos" ficam próximos de livros sobre "cachorros".

### Text Splitting
Text Splitting é o processo de dividir documentos longos em pedaços menores e gerenciáveis. É como cortar um bolo gigante em pedaços que fazem sentido. Sem isso, seria impossível processar documentos grandes.

## Vantagens do RAG

1. **Precisão**: Respostas baseadas em fatos reais
2. **Atualização**: Pode usar informações recentes
3. **Transparência**: Mostra as fontes das informações
4. **Flexibilidade**: Adaptável a qualquer domínio
5. **Eficiência**: Processa grandes volumes de dados

## Aplicações práticas

### Chatbots inteligentes
Chatbots que podem responder perguntas específicas sobre produtos, serviços ou documentos da empresa. É como ter um atendente que conhece todos os detalhes da empresa.

### Assistentes de estudo
Sistemas que ajudam estudantes a encontrar informações relevantes em materiais de estudo. É como ter um tutor que conhece todos os livros da biblioteca.

### Análise de documentos
Sistemas que podem analisar e extrair informações de grandes volumes de documentos. É como ter um analista que nunca se cansa de ler documentos.

## Desafios e limitações

### Qualidade dos dados
A qualidade das respostas depende da qualidade dos documentos de base. É como cozinhar - se os ingredientes são ruins, o prato também será.

### Complexidade de implementação
Implementar RAG pode ser complexo, especialmente para sistemas em produção. É como construir uma casa - precisa de planejamento e execução cuidadosa.

### Custos computacionais
Processar grandes volumes de dados pode ser custoso. É como ter uma conta de luz alta - precisa otimizar o uso.

## Futuro do RAG

O RAG está evoluindo rapidamente, com novas técnicas e melhorias constantes. É como uma tecnologia que está sempre se reinventando, oferecendo novas possibilidades e aplicações.

### Tendências futuras

1. **Multimodalidade**: RAG com imagens, vídeos e áudio
2. **Tempo real**: Processamento de dados em tempo real
3. **Personalização**: Sistemas adaptados a cada usuário
4. **Automação**: Menos intervenção humana necessária

## Conclusão

RAG é uma tecnologia revolucionária que está transformando como as IAs interagem com informações. É como ter um assistente super inteligente que sempre consulta as fontes corretas antes de responder.

Com o RAG, podemos criar sistemas de IA mais precisos, confiáveis e úteis. É o futuro da interação homem-máquina, onde a IA não apenas responde, mas responde com base em informações reais e atualizadas.
"""

print(f"📄 Texto criado com {len(texto_longo)} caracteres")
print(f"📝 Aproximadamente {len(texto_longo.split())} palavras")
print("🍰 Nosso 'bolo gigante' está pronto para ser cortado!")

## **Aula 5.2: Tipos de Text Splitting - Diferentes Maneiras de Cortar**

---

### **Tá, mas quais são os tipos de splitting?**

Existem várias maneiras de "cortar" um texto, como diferentes tipos de facas na cozinha! 🍴

**🖼️ Sugestão de imagem**: Diferentes tipos de facas cortando diferentes tipos de alimentos

### **1. Character Text Splitter - A Faca Simples**

É como usar uma **faca de pão** - corta em pedaços de tamanho fixo, sem se importar muito com o conteúdo.

In [None]:
# 🔪 EXEMPLO 1: CHARACTER TEXT SPLITTER - A FACA SIMPLES

# Criando um splitter que corta por caracteres
character_splitter = CharacterTextSplitter(
    separator="\n",  # Corta nas quebras de linha
    chunk_size=200,   # Tamanho máximo de cada pedaço
    chunk_overlap=20, # Sobreposição entre pedaços
    length_function=len
)

# Cortando nosso texto
chunks_character = character_splitter.split_text(texto_longo)

print(f"🔪 Character Splitter criou {len(chunks_character)} pedaços")
print(f"📏 Tamanho médio: {sum(len(chunk) for chunk in chunks_character) / len(chunks_character):.0f} caracteres")

# Mostrando alguns pedaços
print("\n🍰 Primeiros 3 pedaços:")
for i, chunk in enumerate(chunks_character[:3], 1):
    print(f"\n--- Pedaço {i} ---")
    print(chunk[:150] + "..." if len(chunk) > 150 else chunk)

### **2. Recursive Character Text Splitter - A Faca Inteligente**

É como usar uma **faca de chef** - corta de forma inteligente, respeitando a estrutura do texto (parágrafos, frases, etc.).

In [None]:
# 🧠 EXEMPLO 2: RECURSIVE CHARACTER TEXT SPLITTER - A FACA INTELIGENTE

# Criando um splitter recursivo (mais inteligente)
recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,      # Tamanho máximo
    chunk_overlap=50,    # Sobreposição
    length_function=len,
    separators=["\n\n", "\n", ". ", "! ", "? ", " ", ""]  # Ordem de prioridade
)

# Cortando nosso texto de forma inteligente
chunks_recursive = recursive_splitter.split_text(texto_longo)

print(f"🧠 Recursive Splitter criou {len(chunks_recursive)} pedaços")
print(f"📏 Tamanho médio: {sum(len(chunk) for chunk in chunks_recursive) / len(chunks_recursive):.0f} caracteres")

# Mostrando alguns pedaços inteligentes
print("\n🧠 Primeiros 3 pedaços (mais inteligentes):")
for i, chunk in enumerate(chunks_recursive[:3], 1):
    print(f"\n--- Pedaço {i} ---")
    print(chunk[:200] + "..." if len(chunk) > 200 else chunk)

### **3. Token Text Splitter - A Faca de Precisão**

É como usar uma **faca de precisão** - corta baseado em tokens (unidades de significado), não apenas caracteres.

In [None]:
# 🎯 EXEMPLO 3: TOKEN TEXT SPLITTER - A FACA DE PRECISÃO

# Criando um splitter baseado em tokens
token_splitter = TokenTextSplitter(
    chunk_size=100,      # Número máximo de tokens
    chunk_overlap=20,    # Sobreposição de tokens
    encoding_name="cl100k_base"  # Encoding do GPT
)

# Cortando nosso texto por tokens
chunks_tokens = token_splitter.split_text(texto_longo)

print(f"🎯 Token Splitter criou {len(chunks_tokens)} pedaços")
print(f"📏 Tamanho médio: {sum(len(chunk) for chunk in chunks_tokens) / len(chunks_tokens):.0f} caracteres")

# Mostrando alguns pedaços baseados em tokens
print("\n🎯 Primeiros 3 pedaços (baseados em tokens):")
for i, chunk in enumerate(chunks_tokens[:3], 1):
    print(f"\n--- Pedaço {i} ---")
    print(chunk[:180] + "..." if len(chunk) > 180 else chunk)

## **Aula 5.3: Comparando os Diferentes Métodos**

---

### **Tá, mas qual é o melhor método?**

Vamos comparar os diferentes métodos como comparar diferentes tipos de facas! 🔪

**🖼️ Sugestão de imagem**: Comparação visual dos diferentes métodos de splitting

In [None]:
# 📊 EXEMPLO PRÁTICO: COMPARANDO OS MÉTODOS

# Criando uma comparação visual dos métodos
import pandas as pd

# Dados para comparação
comparacao = {
    'Método': ['Character', 'Recursive', 'Token'],
    'Número de Pedaços': [len(chunks_character), len(chunks_recursive), len(chunks_tokens)],
    'Tamanho Médio (chars)': [
        sum(len(chunk) for chunk in chunks_character) / len(chunks_character),
        sum(len(chunk) for chunk in chunks_recursive) / len(chunks_recursive),
        sum(len(chunk) for chunk in chunks_tokens) / len(chunks_tokens)
    ],
    'Vantagem': [
        'Simples e rápido',
        'Respeita estrutura',
        'Precisão em tokens'
    ],
    'Desvantagem': [
        'Pode quebrar frases',
        'Mais lento',
        'Depende do modelo'
    ]
}

# Criando DataFrame
df_comparacao = pd.DataFrame(comparacao)
print("📊 COMPARAÇÃO DOS MÉTODOS DE SPLITTING")
print("=" * 60)
print(df_comparacao.to_string(index=False))

print("\n💡 DICA: Para RAG, o Recursive é geralmente a melhor opção!")

### **Teste Rápido - Qual Método Escolher?**

Vamos testar qual método funciona melhor para diferentes tipos de texto:

In [None]:
# 🧪 TESTE RÁPIDO: QUAL MÉTODO ESCOLHER?

# Texto curto para teste
texto_teste = """
RAG é uma técnica revolucionária. Ela combina busca com geração.
É muito útil para chatbots inteligentes.
Funciona bem com documentos grandes.
"""

print("🧪 TESTANDO DIFERENTES MÉTODOS")
print("=" * 40)

# Testando cada método
metodos = {
    'Character': CharacterTextSplitter(chunk_size=50, chunk_overlap=10),
    'Recursive': RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=10),
    'Token': TokenTextSplitter(chunk_size=20, chunk_overlap=5)
}

for nome, splitter in metodos.items():
    chunks = splitter.split_text(texto_teste)
    print(f"\n🔪 {nome} Splitter:")
    print(f"   📄 Pedaços criados: {len(chunks)}")
    for i, chunk in enumerate(chunks, 1):
        print(f"   {i}. '{chunk.strip()}'")

print("\n💡 OBSERVAÇÃO: Recursive mantém melhor a estrutura do texto!")

## **Aula 5.4: Splitting Especializado - Para Diferentes Tipos de Texto**

---

### **Tá, mas e se o texto for Markdown ou HTML?**

Assim como temos facas especiais para diferentes alimentos, temos splitters especiais para diferentes tipos de texto! 🍴

**🖼️ Sugestão de imagem**: Diferentes ferramentas para diferentes tipos de material

In [None]:
# 📝 EXEMPLO 4: SPLITTING ESPECIALIZADO

# Texto em Markdown
texto_markdown = """
# Título Principal

## Subtítulo 1
Este é um parágrafo normal.

### Subtítulo 1.1
Outro parágrafo aqui.

## Subtítulo 2
Mais conteúdo aqui.

- Item 1
- Item 2
- Item 3

**Texto em negrito** e *texto em itálico*.
"""

# Texto em HTML
texto_html = """
<html>
<head><title>Página de Teste</title></head>
<body>
    <h1>Título Principal</h1>
    <p>Este é um parágrafo.</p>
    <h2>Subtítulo</h2>
    <p>Outro parágrafo.</p>
    <ul>
        <li>Item 1</li>
        <li>Item 2</li>
    </ul>
</body>
</html>
"""

print("📝 TEXTOS ESPECIALIZADOS CRIADOS!")
print(f"📄 Markdown: {len(texto_markdown)} caracteres")
print(f"🌐 HTML: {len(texto_html)} caracteres")

In [None]:
# 🔧 TESTANDO SPLITTERS ESPECIALIZADOS

# Markdown Splitter
markdown_splitter = MarkdownTextSplitter(
    chunk_size=100,
    chunk_overlap=20
)

# HTML Splitter
html_splitter = HTMLTextSplitter(
    chunk_size=100,
    chunk_overlap=20
)

# Testando Markdown
chunks_md = markdown_splitter.split_text(texto_markdown)
print("📝 MARKDOWN SPLITTER:")
print(f"   📄 Pedaços criados: {len(chunks_md)}")
for i, chunk in enumerate(chunks_md, 1):
    print(f"   {i}. {chunk.strip()[:50]}...")

print("\n" + "-" * 40)

# Testando HTML
chunks_html = html_splitter.split_text(texto_html)
print("🌐 HTML SPLITTER:")
print(f"   📄 Pedaços criados: {len(chunks_html)}")
for i, chunk in enumerate(chunks_html, 1):
    print(f"   {i}. {chunk.strip()[:50]}...")

print("\n💡 OBSERVAÇÃO: Splitters especializados respeitam a estrutura do formato!")

### **Desafio do Módulo - Criando um Sistema Completo**

Vamos criar um sistema que escolhe automaticamente o melhor splitter para cada tipo de texto:

In [None]:
# 🎯 DESAFIO: SISTEMA INTELIGENTE DE SPLITTING

def escolher_splitter_inteligente(texto):
    """Escolhe o melhor splitter baseado no tipo de texto"""
    
    # Detectando tipo de texto
    if texto.strip().startswith('<html') or '<body>' in texto:
        print("🌐 Detectado HTML - usando HTML Splitter")
        return HTMLTextSplitter(chunk_size=200, chunk_overlap=30)
    
    elif '#' in texto[:100] and '\n' in texto:
        print("📝 Detectado Markdown - usando Markdown Splitter")
        return MarkdownTextSplitter(chunk_size=200, chunk_overlap=30)
    
    else:
        print("📄 Texto normal - usando Recursive Splitter")
        return RecursiveCharacterTextSplitter(
            chunk_size=200,
            chunk_overlap=30,
            separators=["\n\n", "\n", ". ", "! ", "? ", " ", ""]
        )

# Testando o sistema inteligente
textos_teste = [
    ("Texto normal", "Este é um texto normal sem formatação especial."),
    ("Markdown", "# Título\n\nEste é um texto em markdown."),
    ("HTML", "<html><body><h1>Título</h1><p>Texto HTML</p></body></html>")
]

print("🎯 TESTANDO SISTEMA INTELIGENTE DE SPLITTING")
print("=" * 50)

for nome, texto in textos_teste:
    print(f"\n🔍 Testando: {nome}")
    splitter = escolher_splitter_inteligente(texto)
    chunks = splitter.split_text(texto)
    print(f"   📄 Pedaços criados: {len(chunks)}")
    print(f"   📏 Tamanho médio: {sum(len(chunk) for chunk in chunks) / len(chunks):.0f} chars")

print("\n🎉 Sistema inteligente funcionando perfeitamente!")

### **Na Prática, Meu Consagrado!** 💪

**O que aprendemos sobre Text Splitting:**

1. ✅ **Por que quebrar textos** - Como cortar um bolo gigante
2. ✅ **Diferentes métodos** - Character, Recursive, Token
3. ✅ **Splitters especializados** - Markdown, HTML
4. ✅ **Sistema inteligente** - Escolha automática do melhor método

### **Vantagens do Text Splitting**

- **Processamento eficiente**: Textos grandes viram pedaços gerenciáveis
- **Melhor busca**: Encontrar informação específica fica mais fácil
- **Flexibilidade**: Diferentes métodos para diferentes necessidades
- **Performance**: Sistemas mais rápidos e eficientes

### **Próximos Passos**

**🖼️ Sugestão de imagem**: Fluxo do RAG mostrando o Text Splitting como parte do processo

**🎯 Próximo módulo**: Vamos aprender sobre **Retrieval** - como encontrar os pedaços certos!

**📝 Resumo do Módulo 5**:
- ✅ Entendemos por que precisamos quebrar textos
- ✅ Aprendemos diferentes métodos de splitting
- ✅ Criamos um sistema inteligente de escolha
- ✅ Praticamos com exemplos reais

**🚀 Agora você sabe como cortar qualquer texto de forma inteligente!**

---

**💡 Dica do Pedro**: Para RAG, sempre use RecursiveCharacterTextSplitter - ele é o mais inteligente e respeita a estrutura do texto!

**🚀 Próximo módulo**: Retrieval - Como encontrar a agulha no palheiro! 🔍