# 📚 Document Loading e Splitters: Transformando Documentos em Conhecimento Útil para IA

## Módulo 6 - LangChain v0.2 🚀

---

**Eaí, galera!** Chegamos no módulo 6 do nosso curso de LangChain e agora vamos falar sobre uma das partes mais importantes quando trabalhamos com IA: **como carregar e dividir documentos**!

Já vimos nos módulos anteriores como usar ChatModels, Prompt Templates, Chains e Memory Systems. Agora vamos aprender como alimentar nossa IA com conhecimento de documentos reais - PDFs, textos, páginas web e muito mais!

**Bora entender como transformar qualquer documento em conhecimento útil para nossa IA!** 🤖📖

## 🎯 O que vamos aprender hoje?

- ✅ **Document Loaders**: Como carregar diferentes tipos de documentos
- ✅ **Text Splitters**: Como dividir textos grandes em pedaços úteis
- ✅ **Estratégias de chunking**: Diferentes formas de dividir textos
- ✅ **Preparação para RAG**: Como isso se conecta com o que vem pela frente
- ✅ **Casos práticos**: PDFs, websites, CSVs e mais!

**Dica do Pedro**: Pense nos Document Loaders como "garçons" que trazem a comida (documentos) da cozinha, e os Splitters como "chefs" que cortam tudo em pedaços do tamanho certo para você comer (processar)! 🍽️

In [None]:
# Vamos instalar as dependências necessárias
!pip install langchain langchain-community langchain-google-genai
!pip install pypdf python-docx beautifulsoup4 requests
!pip install matplotlib seaborn pandas numpy

print("📦 Todas as dependências instaladas com sucesso!")
print("🚀 Bora começar nossa jornada pelos Document Loaders!")

In [None]:
# Imports essenciais para nosso workshop
import os
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from typing import List, Dict

# LangChain imports - os protagonistas de hoje!
from langchain.document_loaders import (
    TextLoader,
    PyPDFLoader,
    WebBaseLoader,
    CSVLoader
)

from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    CharacterTextSplitter,
    TokenTextSplitter
)

from langchain.schema.document import Document

print("🎉 Imports carregados! Vamos começar a brincadeira!")
print("📚 Hoje vamos transformar documentos em conhecimento útil para IA!")

## 🤔 Tá, mas o que são Document Loaders?

**Document Loaders** são como "tradutores universais" que conseguem ler qualquer tipo de documento e transformar em um formato que o LangChain entende.

### Analogia do Açougue 🥩
Imagina que você vai no açougue e pede:
- **Carne bovina** (PDF)
- **Frango** (TXT)
- **Peixe** (CSV)
- **Camarão** (Website)

O açougueiro (Document Loader) pega todos esses diferentes tipos de "proteína" e entrega tudo **embalado da mesma forma** para você levar para casa!

### Estrutura de um Document no LangChain
Todo documento carregado vira um objeto `Document` com:
- **page_content**: O texto em si
- **metadata**: Informações extras (nome do arquivo, página, etc.)

```python
Document(
    page_content="Aqui fica o texto do documento...",
    metadata={"source": "arquivo.pdf", "page": 1}
)
```

**Dica do Pedro**: É como se cada documento virasse uma "ficha" padronizada, independente de onde veio! 📄

In [None]:
# Vamos criar alguns documentos de exemplo para brincar
import tempfile

# Criando um arquivo de texto de exemplo
texto_exemplo = """
LangChain é uma framework incrível para desenvolvimento de aplicações com IA.
Ela permite integrar modelos de linguagem com diversas fontes de dados.
Com Document Loaders, podemos carregar informações de PDFs, websites, 
bancos de dados e muito mais!

No Brasil, o uso de IA está crescendo exponencialmente.
Empresas de todos os tamanhos estão adotando soluções inteligentes.
O LangChain facilita muito esse processo de implementação.
"""

# Salvando em um arquivo temporário
with tempfile.NamedTemporaryFile(mode='w', suffix='.txt', delete=False) as f:
    f.write(texto_exemplo)
    arquivo_texto = f.name

print(f"📝 Arquivo de exemplo criado: {arquivo_texto}")
print("🎯 Agora vamos carregar este arquivo usando TextLoader!")

In [None]:
# Nosso primeiro Document Loader em ação!
loader = TextLoader(arquivo_texto, encoding='utf-8')
documentos = loader.load()

print("🎉 Documento carregado com sucesso!")
print(f"📊 Número de documentos: {len(documentos)}")
print("\n" + "="*50)
print("📄 CONTEÚDO DO DOCUMENTO:")
print("="*50)
print(documentos[0].page_content)
print("\n" + "="*50)
print("🏷️ METADATA:")
print("="*50)
print(documentos[0].metadata)

# Limpeza
os.unlink(arquivo_texto)

## 🌐 Carregando Conteúdo da Web

Agora vamos ver algo **liiindo**: carregar conteúdo diretamente de websites! 

O `WebBaseLoader` é como ter um **"assistente virtual"** que vai lá no site, lê tudo e traz o conteúdo organizadinho para você!

### Como funciona por baixo dos panos:
1. 🌐 Faz uma requisição HTTP para a URL
2. 🧹 Usa BeautifulSoup para "limpar" o HTML
3. 📝 Extrai apenas o texto útil
4. 📦 Empacota tudo em um Document

**Dica do Pedro**: É como ter um estagiário que vai na biblioteca, lê o livro inteiro e faz um resumo organizado para você! 📚👨‍🎓

In [None]:
# Carregando conteúdo de uma página web
# Vamos usar uma página do Wikipedia sobre IA
url = "https://pt.wikipedia.org/wiki/Intelig%C3%AAncia_artificial"

try:
    web_loader = WebBaseLoader(url)
    doc_web = web_loader.load()
    
    print("🌐 Página web carregada com sucesso!")
    print(f"📊 Número de documentos: {len(doc_web)}")
    print(f"📏 Tamanho do conteúdo: {len(doc_web[0].page_content)} caracteres")
    
    # Mostrando os primeiros 500 caracteres
    print("\n" + "="*50)
    print("📄 PREVIEW DO CONTEÚDO:")
    print("="*50)
    print(doc_web[0].page_content[:500] + "...")
    
    print("\n" + "="*30)
    print("🏷️ METADATA:")
    print("="*30)
    print(doc_web[0].metadata)
    
except Exception as e:
    print(f"❌ Erro ao carregar página: {e}")
    print("🔄 Vamos continuar com um exemplo simulado...")
    
    # Criando um documento simulado caso não consiga acessar a web
    doc_web = [Document(
        page_content="Inteligência artificial é a simulação de processos de inteligência humana por máquinas, especialmente sistemas de computador. Estes processos incluem aprendizado, raciocínio e autocorreção.",
        metadata={"source": url, "title": "Inteligência Artificial"}
    )]

In [None]:
# Vamos criar e carregar um CSV de exemplo
import csv

# Dados de exemplo sobre vendas de IA no Brasil
dados_csv = [
    ["Empresa", "Produto", "Vendas_2023", "Região"],
    ["TechAI", "Chatbot Corporativo", "1500000", "São Paulo"],
    ["BrasilBot", "Assistente Virtual", "800000", "Rio de Janeiro"],
    ["SmartSul", "IA para Vendas", "1200000", "Porto Alegre"],
    ["NordesteAI", "Automação Industrial", "950000", "Recife"],
    ["CentroIA", "Análise Preditiva", "600000", "Brasília"]
]

# Criando arquivo CSV temporário
with tempfile.NamedTemporaryFile(mode='w', suffix='.csv', delete=False, newline='') as f:
    writer = csv.writer(f)
    writer.writerows(dados_csv)
    arquivo_csv = f.name

print(f"📊 Arquivo CSV criado: {arquivo_csv}")

# Carregando o CSV
csv_loader = CSVLoader(arquivo_csv, encoding='utf-8')
docs_csv = csv_loader.load()

print(f"\n✅ CSV carregado com sucesso!")
print(f"📈 Número de documentos (linhas): {len(docs_csv)}")

# Mostrando os primeiros documentos
for i, doc in enumerate(docs_csv[:3]):
    print(f"\n📋 DOCUMENTO {i+1}:")
    print(f"Conteúdo: {doc.page_content}")
    print(f"Metadata: {doc.metadata}")

# Limpeza
os.unlink(arquivo_csv)

## ✂️ Text Splitters: A Arte de Dividir Textos

Agora vem a parte **mais importante**: os **Text Splitters**! 🎯

### Por que precisamos dividir textos?

Imagina que você tem um livro de 500 páginas sobre IA e quer que o ChatGPT responda perguntas sobre ele. O problema é:
- 🧠 **Modelos de IA têm limite de tokens** (como ter uma "boca pequena")
- 🎯 **Textos muito grandes perdem foco** (é difícil achar informação específica)
- ⚡ **Processamento fica lento** (como mastigar um sanduíche gigante)

### Analogia da Pizza 🍕
Os Text Splitters são como **cortar uma pizza gigante**:
- **RecursiveCharacterTextSplitter**: Corta seguindo as "divisões naturais" (fatias iguais respeitando os ingredientes)
- **CharacterTextSplitter**: Corta em um ponto específico (como cortar sempre na borda do pepperoni)
- **TokenTextSplitter**: Conta cada "grão de queijo" e corta quando chegar no limite

### Parâmetros Importantes:
- **chunk_size**: Tamanho de cada "fatia"
- **chunk_overlap**: Quantos "ingredientes" ficam repetidos entre fatias (para não perder contexto)

**Dica do Pedro**: O segredo está no **overlap**! É como deixar um pedacinho da fatia anterior na próxima para manter o "sabor" da conversa! 🧠✨

In [None]:
# Vamos criar um texto longo para testar nossos splitters
texto_longo = """
A Inteligência Artificial no Brasil está passando por uma revolução extraordinária. 
Empresas de todos os setores estão adotando soluções baseadas em IA para otimizar processos, 
melhorar a experiência do cliente e aumentar a competitividade.

No setor financeiro, bancos como Itaú, Bradesco e Nubank utilizam algoritmos de machine learning 
para análise de crédito, detecção de fraudes e personalização de produtos. 
Essas tecnologias permitem decisões mais rápidas e precisas.

O varejo brasileiro também abraçou a IA. Empresas como Magazine Luiza e Via Varejo 
implementaram chatbots inteligentes, sistemas de recomendação e análise preditiva de demanda. 
Isso resulta em melhor gestão de estoque e experiências de compra mais personalizadas.

Na área da saúde, startups brasileiras desenvolvem soluções inovadoras. 
Sistemas de diagnóstico por imagem, análise de exames laboratoriais e 
monitoramento de pacientes usando IA estão revolucionando o atendimento médico.

O agronegócio, setor vital da economia brasileira, também se beneficia enormemente da IA. 
Análise de imagens de satélite, previsão climática, otimização de plantio e 
monitoramento de pragas são apenas alguns exemplos de aplicação.

LangChain facilita muito o desenvolvimento dessas soluções ao fornecer 
ferramentas padronizadas para integração de modelos de linguagem com dados empresariais.
"""

print(f"📝 Texto criado com {len(texto_longo)} caracteres")
print(f"📊 Aproximadamente {len(texto_longo.split())} palavras")
print("\n🎯 Agora vamos ver diferentes formas de dividir este texto!")

In [None]:
# RecursiveCharacterTextSplitter - O mais inteligente!
splitter_recursivo = RecursiveCharacterTextSplitter(
    chunk_size=300,  # Cada pedaço terá até 300 caracteres
    chunk_overlap=50,  # 50 caracteres de sobreposição
    separators=["\n\n", "\n", ".", " ", ""]  # Ordem de preferência para dividir
)

chunks_recursivo = splitter_recursivo.split_text(texto_longo)

print("🧠 RECURSIVE CHARACTER TEXT SPLITTER")
print("="*50)
print(f"📊 Número de chunks: {len(chunks_recursivo)}")

for i, chunk in enumerate(chunks_recursivo):
    print(f"\n📄 CHUNK {i+1} ({len(chunk)} caracteres):")
    print("-" * 30)
    print(chunk.strip())
    if i >= 2:  # Mostrando apenas os primeiros 3
        print(f"\n... (e mais {len(chunks_recursivo)-3} chunks)")
        break

In [None]:
# Vamos comparar com Character TextSplitter
splitter_simples = CharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=50,
    separator="\n\n"  # Só divide em parágrafos
)

chunks_simples = splitter_simples.split_text(texto_longo)

print("⚡ CHARACTER TEXT SPLITTER")
print("="*50)
print(f"📊 Número de chunks: {len(chunks_simples)}")

for i, chunk in enumerate(chunks_simples[:2]):
    print(f"\n📄 CHUNK {i+1} ({len(chunk)} caracteres):")
    print("-" * 30)
    print(chunk.strip())

In [None]:
# Visualizando as diferenças entre os splitters
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Tamanhos dos chunks - Recursive
tamanhos_recursivo = [len(chunk) for chunk in chunks_recursivo]
ax1.bar(range(len(tamanhos_recursivo)), tamanhos_recursivo, 
        color='skyblue', alpha=0.7, edgecolor='navy')
ax1.set_title('📊 Recursive Character Text Splitter\nTamanho dos Chunks', fontsize=12, pad=20)
ax1.set_xlabel('Número do Chunk')
ax1.set_ylabel('Tamanho (caracteres)')
ax1.grid(True, alpha=0.3)

# Tamanhos dos chunks - Character
tamanhos_simples = [len(chunk) for chunk in chunks_simples]
ax2.bar(range(len(tamanhos_simples)), tamanhos_simples, 
        color='lightcoral', alpha=0.7, edgecolor='darkred')
ax2.set_title('📊 Character Text Splitter\nTamanho dos Chunks', fontsize=12, pad=20)
ax2.set_xlabel('Número do Chunk')
ax2.set_ylabel('Tamanho (caracteres)')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n📈 ESTATÍSTICAS:")
print(f"Recursive - Chunks: {len(chunks_recursivo)}, Tamanho médio: {np.mean(tamanhos_recursivo):.1f}")
print(f"Character - Chunks: {len(chunks_simples)}, Tamanho médio: {np.mean(tamanhos_simples):.1f}")

## 🧮 Token Text Splitter: Contando Cada "Palavrinha"

O **TokenTextSplitter** é o mais preciso de todos! Ele conta **tokens** (as "palavrinhas" que a IA entende) em vez de caracteres.

### Por que tokens são importantes?
- 🧠 **Modelos de IA cobram por token** (como táxi que cobra por quilômetro)
- 📏 **Cada modelo tem limite de tokens** (como elevador com limite de peso)
- 🎯 **Token é a "moeda" da IA** (1 token ≈ 0.75 palavras em inglês)

### Regra de ouro:
- **1 token** ≈ 4 caracteres em inglês
- **1 token** ≈ 0.75 palavras
- **Em português pode variar** (palavras maiores = mais tokens)

**Dica do Pedro**: É como comprar carne no açougue - você não paga pelo tamanho da bandeja, mas pelo peso real da carne! 🥩⚖️

In [None]:
# Vamos tentar usar o TokenTextSplitter
# Nota: Pode precisar de configuração adicional dependendo do tokenizer

try:
    # Para usar tiktoken (tokenizer do OpenAI)
    !pip install tiktoken -q
    
    from langchain.text_splitter import TokenTextSplitter
    
    token_splitter = TokenTextSplitter(
        chunk_size=100,  # 100 tokens por chunk
        chunk_overlap=20   # 20 tokens de overlap
    )
    
    chunks_token = token_splitter.split_text(texto_longo)
    
    print("🧮 TOKEN TEXT SPLITTER")
    print("="*50)
    print(f"📊 Número de chunks: {len(chunks_token)}")
    
    for i, chunk in enumerate(chunks_token[:3]):
        # Estimativa de tokens (aproximada)
        tokens_aprox = len(chunk) // 4
        print(f"\n🎯 CHUNK {i+1} (~{tokens_aprox} tokens, {len(chunk)} caracteres):")
        print("-" * 40)
        print(chunk.strip())
        
except ImportError:
    print("⚠️ TokenTextSplitter precisa do tiktoken instalado")
    print("📝 Vamos simular o comportamento...")
    
    # Simulação simples baseada em palavras
    palavras = texto_longo.split()
    chunk_size_palavras = 75  # Aproximadamente 100 tokens
    overlap_palavras = 15     # Aproximadamente 20 tokens
    
    chunks_token = []
    for i in range(0, len(palavras), chunk_size_palavras - overlap_palavras):
        chunk_palavras = palavras[i:i + chunk_size_palavras]
        chunks_token.append(" ".join(chunk_palavras))
    
    print("🧮 TOKEN TEXT SPLITTER (Simulado)")
    print("="*50)
    print(f"📊 Número de chunks: {len(chunks_token)}")
    
    for i, chunk in enumerate(chunks_token[:2]):
        tokens_aprox = len(chunk.split())
        print(f"\n🎯 CHUNK {i+1} (~{tokens_aprox} palavras/tokens):")
        print("-" * 40)
        print(chunk[:200] + "..." if len(chunk) > 200 else chunk)

In [None]:
# Comparando todos os splitters em um gráfico épico!
fig, ax = plt.subplots(figsize=(12, 8))

# Dados para comparação
splitters_nomes = ['Recursive\nCharacter', 'Character', 'Token\n(Simulado)']
num_chunks = [len(chunks_recursivo), len(chunks_simples), len(chunks_token)]
cores = ['#3498db', '#e74c3c', '#f39c12']

# Criando o gráfico de barras
barras = ax.bar(splitters_nomes, num_chunks, color=cores, alpha=0.8, edgecolor='black', linewidth=2)

# Adicionando valores nas barras
for barra, valor in zip(barras, num_chunks):
    altura = barra.get_height()
    ax.text(barra.get_x() + barra.get_width()/2., altura + 0.1,
            f'{valor} chunks', ha='center', va='bottom', fontweight='bold', fontsize=11)

ax.set_title('🥊 BATALHA DOS TEXT SPLITTERS\nNúmero de Chunks Gerados', 
             fontsize=16, fontweight='bold', pad=20)
ax.set_ylabel('Número de Chunks', fontsize=12)
ax.set_xlabel('Tipo de Splitter', fontsize=12)
ax.grid(True, alpha=0.3, axis='y')

# Deixando o gráfico mais bonito
ax.set_ylim(0, max(num_chunks) * 1.2)
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

plt.tight_layout()
plt.show()

print("\n🏆 RESULTADO DA BATALHA:")
print(f"🥇 Recursive Character: {len(chunks_recursivo)} chunks (Mais inteligente!)")
print(f"🥈 Character: {len(chunks_simples)} chunks (Mais simples)")
print(f"🥉 Token: {len(chunks_token)} chunks (Mais preciso para IA!)")

## 🔄 Workflow Completo: Loader + Splitter

Agora vamos juntar tudo que aprendemos! **Document Loader + Text Splitter** = Combo perfeito! 🎯

### O Fluxo Completo:
```mermaid
graph TD
    A[📄 Documento Original] --> B[🔄 Document Loader]
    B --> C[📝 Document Object]
    C --> D[✂️ Text Splitter]
    D --> E[📚 Chunks Menores]
    E --> F[🤖 Pronto para IA!]
```

### Por que esse workflow é importante?
- 🎯 **Prepara dados para RAG** (próximo módulo!)
- ⚡ **Otimiza performance** da IA
- 💰 **Economiza tokens** (e dinheiro!)
- 🧠 **Mantém contexto** com overlap

**Dica do Pedro**: É como preparar ingredientes antes de cozinhar - quanto melhor a preparação, melhor o resultado final! 👨‍🍳✨

In [None]:
# Workflow completo: Criando documentos, carregando e dividindo
def processar_documento_completo(texto, chunk_size=200, chunk_overlap=30):
    """
    Função que simula o workflow completo de processamento de documentos
    """
    print("🚀 INICIANDO WORKFLOW COMPLETO")
    print("="*50)
    
    # Etapa 1: Simular Document Loader
    print("📄 Etapa 1: Carregando documento...")
    documento = Document(
        page_content=texto,
        metadata={"source": "documento_exemplo.txt", "tipo": "texto"}
    )
    print(f"✅ Documento carregado: {len(documento.page_content)} caracteres")
    
    # Etapa 2: Text Splitter
    print("\n✂️ Etapa 2: Dividindo em chunks...")
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    
    # Dividindo o documento
    chunks = splitter.split_documents([documento])
    print(f"✅ Documento dividido em {len(chunks)} chunks")
    
    # Etapa 3: Análise dos chunks
    print("\n📊 Etapa 3: Analisando resultados...")
    tamanhos = [len(chunk.page_content) for chunk in chunks]
    
    print(f"📈 Tamanho médio dos chunks: {np.mean(tamanhos):.1f} caracteres")
    print(f"📏 Menor chunk: {min(tamanhos)} caracteres")
    print(f"📏 Maior chunk: {max(tamanhos)} caracteres")
    
    return chunks

# Testando o workflow
chunks_finais = processar_documento_completo(texto_longo, chunk_size=250, chunk_overlap=40)

In [None]:
# Visualizando os chunks finais
print("🎯 CHUNKS FINAIS PROCESSADOS")
print("="*60)

for i, chunk in enumerate(chunks_finais):
    print(f"\n📄 CHUNK {i+1}")
    print(f"📊 Tamanho: {len(chunk.page_content)} caracteres")
    print(f"🏷️ Metadata: {chunk.metadata}")
    print(f"📝 Conteúdo:")
    print("-" * 40)
    # Mostrando apenas os primeiros 150 caracteres para não poluir
    preview = chunk.page_content.strip()[:150]
    print(preview + "..." if len(chunk.page_content) > 150 else preview)
    
    if i >= 3:  # Limitando a exibição
        print(f"\n... (e mais {len(chunks_finais)-4} chunks)")
        break

print(f"\n🎉 Processo concluído! {len(chunks_finais)} chunks prontos para uso!")

## 🎮 EXERCÍCIO PRÁTICO 1: Criando seu Document Processor

**Hora de colocar a mão na massa!** 💪

### 🎯 Seu Desafio:
Crie uma função que:
1. Recebe um texto longo
2. Testa 3 estratégias diferentes de splitting
3. Compara os resultados
4. Retorna a melhor estratégia

### 📋 Critérios de "melhor estratégia":
- Chunks com tamanhos mais uniformes
- Menor número total de chunks
- Melhor preservação de contexto

**Dica do Pedro**: Pense como um chef que testa diferentes formas de cortar os ingredientes para ver qual fica melhor na receita! 👨‍🍳

In [None]:
# EXERCÍCIO 1: Complete a função abaixo
def comparar_estrategias_splitting(texto, chunk_size=300):
    """
    Compara diferentes estratégias de text splitting
    
    Args:
        texto (str): Texto para dividir
        chunk_size (int): Tamanho desejado dos chunks
    
    Returns:
        dict: Resultados das comparações
    """
    resultados = {}
    
    # TODO: Implemente 3 estratégias diferentes
    # Estratégia 1: RecursiveCharacterTextSplitter
    # Estratégia 2: CharacterTextSplitter  
    # Estratégia 3: Sua escolha criativa!
    
    # TODO: Para cada estratégia, calcule:
    # - Número de chunks
    # - Tamanho médio dos chunks
    # - Desvio padrão dos tamanhos (uniformidade)
    
    # TODO: Determine qual é a "melhor" estratégia
    
    # CÓDIGO DE EXEMPLO (substitua pelo seu):
    splitter1 = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=50)
    chunks1 = splitter1.split_text(texto)
    
    resultados['recursive'] = {
        'chunks': len(chunks1),
        'tamanho_medio': np.mean([len(c) for c in chunks1]),
        'desvio_padrao': np.std([len(c) for c in chunks1])
    }
    
    # COMPLETE COM AS OUTRAS ESTRATÉGIAS!
    
    return resultados

# Teste sua função
resultados_teste = comparar_estrategias_splitting(texto_longo)
print("🧪 Resultados do seu teste:")
print(resultados_teste)

## 🚀 Preparando para o Próximo Módulo: RAG

**Liiindo!** Agora que sabemos carregar e dividir documentos, vamos entender como isso se conecta com o **RAG (Retrieval-Augmented Generation)** 🎯

### O que vem pela frente no Módulo 7:
- 🧠 **Vector Stores**: Como transformar nossos chunks em vetores
- 🔍 **Embeddings**: A "impressão digital" semântica dos textos
- 🎯 **Similarity Search**: Como achar informações relevantes
- 🤖 **RAG Implementation**: Juntando tudo para criar IA com conhecimento específico

### Como os chunks se transformam em conhecimento:
```mermaid
graph LR
    A[📚 Chunks] --> B[🧮 Embeddings]
    B --> C[🗄️ Vector Store]
    C --> D[🔍 Search]
    D --> E[🤖 RAG Response]
```

**Dica do Pedro**: Os chunks que criamos hoje são como "fichas de conhecimento" que vamos usar para alimentar nossa IA no próximo módulo! É como criar um "catálogo inteligente" de informações! 📚🧠

In [None]:
# Preparando nossos chunks para o próximo módulo
def preparar_chunks_para_rag(chunks, max_chunks=10):
    """
    Prepara chunks para uso em RAG, otimizando tamanho e qualidade
    """
    print("🔄 PREPARANDO CHUNKS PARA RAG")
    print("="*40)
    
    # Filtrando chunks muito pequenos (pouco conteúdo útil)
    chunks_filtrados = [chunk for chunk in chunks if len(chunk.page_content.strip()) > 50]
    
    # Limitando número de chunks se necessário
    if len(chunks_filtrados) > max_chunks:
        chunks_filtrados = chunks_filtrados[:max_chunks]
    
    print(f"✅ Chunks originais: {len(chunks)}")
    print(f"✅ Chunks filtrados: {len(chunks_filtrados)}")
    print(f"✅ Chunks finais: {len(chunks_filtrados)}")
    
    # Estatísticas dos chunks finais
    tamanhos = [len(chunk.page_content) for chunk in chunks_filtrados]
    
    print(f"\n📊 ESTATÍSTICAS FINAIS:")
    print(f"📏 Tamanho médio: {np.mean(tamanhos):.1f} caracteres")
    print(f"📐 Desvio padrão: {np.std(tamanhos):.1f}")
    print(f"📈 Min/Max: {min(tamanhos)}/{max(tamanhos)} caracteres")
    
    return chunks_filtrados

# Preparando para RAG
chunks_para_rag = preparar_chunks_para_rag(chunks_finais)

print("\n🎯 Chunks prontos para o Módulo 7 - Vector Stores e RAG!")
print("No próximo módulo vamos transformar estes chunks em vetores semânticos!")

## 🎮 EXERCÍCIO PRÁTICO 2: Document Processor Avançado

**Último desafio do módulo!** 🏆

### 🎯 Missão Impossível:
Crie um **Document Processor Universal** que:
1. Detecta automaticamente o tipo de conteúdo
2. Escolhe a estratégia de splitting ideal
3. Otimiza os chunks para diferentes casos de uso
4. Gera relatório de qualidade

### 📋 Especificações:
- **Entrada**: Texto de qualquer tipo
- **Saída**: Chunks otimizados + relatório
- **Bonus**: Visualização dos resultados

**Dica do Pedro**: Pense como um "sommelier de chunks" - cada tipo de texto precisa de um tratamento especial! 🍷

In [None]:
# EXERCÍCIO 2: Document Processor Avançado
class DocumentProcessorAvancado:
    def __init__(self):
        self.estrategias = {
            'narrativo': {'chunk_size': 400, 'overlap': 60},
            'tecnico': {'chunk_size': 300, 'overlap': 50},
            'listagem': {'chunk_size': 200, 'overlap': 30}
        }
    
    def detectar_tipo_conteudo(self, texto):
        """
        Detecta o tipo de conteúdo do texto
        TODO: Implemente a lógica de detecção
        """
        # DICAS:
        # - Conte parágrafos longos vs curtos
        # - Procure por listas (-, *, números)
        # - Analise vocabulário técnico
        
        # IMPLEMENTAÇÃO SIMPLES (você pode melhorar!):
        paragrafos = texto.split('\n\n')
        tamanho_medio_paragrafo = np.mean([len(p) for p in paragrafos if p.strip()])
        
        if tamanho_medio_paragrafo > 300:
            return 'narrativo'
        elif any(palavra in texto.lower() for palavra in ['sistema', 'algoritmo', 'função', 'tecnologia']):
            return 'tecnico'
        else:
            return 'listagem'
    
    def processar(self, texto):
        """
        Processa o documento completo
        TODO: Complete a implementação
        """
        print("🤖 DOCUMENT PROCESSOR AVANÇADO")
        print("="*50)
        
        # Etapa 1: Detectar tipo
        tipo = self.detectar_tipo_conteudo(texto)
        print(f"🔍 Tipo detectado: {tipo}")
        
        # Etapa 2: Aplicar estratégia
        config = self.estrategias[tipo]
        splitter = RecursiveCharacterTextSplitter(
            chunk_size=config['chunk_size'],
            chunk_overlap=config['overlap']
        )
        
        chunks = splitter.split_text(texto)
        print(f"✂️ Chunks gerados: {len(chunks)}")
        
        # TODO: Adicione mais análises e otimizações
        
        return {
            'tipo': tipo,
            'chunks': chunks,
            'config_usada': config,
            'estatisticas': self._gerar_estatisticas(chunks)
        }
    
    def _gerar_estatisticas(self, chunks):
        tamanhos = [len(chunk) for chunk in chunks]
        return {
            'total_chunks': len(chunks),
            'tamanho_medio': np.mean(tamanhos),
            'desvio_padrao': np.std(tamanhos),
            'min_max': (min(tamanhos), max(tamanhos))
        }

# Testando o processor avançado
processor = DocumentProcessorAvancado()
resultado = processor.processar(texto_longo)

print(f"\n📊 RELATÓRIO FINAL:")
print(f"Tipo: {resultado['tipo']}")
print(f"Estatísticas: {resultado['estatisticas']}")

In [None]:
# Visualização final dos resultados
def criar_dashboard_chunks(resultado):
    fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))
    
    chunks = resultado['chunks']
    stats = resultado['estatisticas']
    
    # Gráfico 1: Tamanho dos chunks
    tamanhos = [len(chunk) for chunk in chunks]
    ax1.bar(range(len(tamanhos)), tamanhos, color='skyblue', alpha=0.7)
    ax1.set_title('📊 Tamanho dos Chunks')
    ax1.set_xlabel('Chunk #')
    ax1.set_ylabel('Caracteres')
    ax1.grid(True, alpha=0.3)
    
    # Gráfico 2: Histograma de tamanhos
    ax2.hist(tamanhos, bins=10, color='lightcoral', alpha=0.7, edgecolor='black')
    ax2.set_title('📈 Distribuição de Tamanhos')
    ax2.set_xlabel('Tamanho (caracteres)')
    ax2.set_ylabel('Frequência')
    ax2.grid(True, alpha=0.3)
    
    # Gráfico 3: Estatísticas resumidas
    stats_nomes = ['Total\nChunks', 'Tamanho\nMédio', 'Desvio\nPadrão']
    stats_valores = [stats['total_chunks'], stats['tamanho_medio'], stats['desvio_padrao']]
    
    cores_stats = ['#3498db', '#2ecc71', '#f39c12']
    ax3.bar(stats_nomes, stats_valores, color=cores_stats, alpha=0.8)
    ax3.set_title('📋 Estatísticas Resumidas')
    ax3.grid(True, alpha=0.3)
    
    # Gráfico 4: Qualidade dos chunks
    labels = ['Chunks\nPequenos', 'Chunks\nIdeais', 'Chunks\nGrandes']
    pequenos = sum(1 for t in tamanhos if t < 150)
    ideais = sum(1 for t in tamanhos if 150 <= t <= 400)
    grandes = sum(1 for t in tamanhos if t > 400)
    
    valores_qualidade = [pequenos, ideais, grandes]
    cores_qualidade = ['#e74c3c', '#2ecc71', '#f39c12']
    
    ax4.pie(valores_qualidade, labels=labels, colors=cores_qualidade, autopct='%1.1f%%')
    ax4.set_title('🎯 Qualidade dos Chunks')
    
    plt.suptitle(f'📚 Dashboard - Document Processing ({resultado["tipo"].upper()})', 
                 fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    return {
        'qualidade_score': (ideais / len(chunks)) * 100,
        'uniformidade_score': 100 - (stats['desvio_padrao'] / stats['tamanho_medio']) * 100
    }

# Criando o dashboard
scores = criar_dashboard_chunks(resultado)

print(f"\n🏆 SCORES DE QUALIDADE:")
print(f"📊 Qualidade dos Chunks: {scores['qualidade_score']:.1f}%")
print(f"📐 Uniformidade: {scores['uniformidade_score']:.1f}%")
print(f"\n🎉 Processamento concluído com sucesso!")

## 🎓 Resumo do Módulo: O que Aprendemos Hoje?

**Parabéns!** Você completou o Módulo 6 e agora é um expert em Document Loading e Splitters! 🎉

### 🏆 Conquistas Desbloqueadas:
- ✅ **Document Loaders**: Aprendeu a carregar TXT, CSV, PDFs e páginas web
- ✅ **Text Splitters**: Dominou 3 estratégias diferentes de divisão de texto
- ✅ **Chunk Optimization**: Sabe otimizar chunks para diferentes casos de uso
- ✅ **Workflow Completo**: Integrou loading + splitting em um processo eficiente
- ✅ **Preparação para RAG**: Chunks prontos para o próximo módulo!

### 🧠 Conceitos-Chave Dominados:
1. **Document** = `page_content` + `metadata`
2. **RecursiveCharacterTextSplitter** = Mais inteligente
3. **CharacterTextSplitter** = Mais simples
4. **TokenTextSplitter** = Mais preciso para IA
5. **Chunk Overlap** = Mantém contexto entre pedaços

### 🔮 Próximos Passos (Módulo 7):
- 🧮 **Embeddings**: Transformar chunks em vetores semânticos
- 🗄️ **Vector Stores**: Armazenar e buscar informações similares
- 🤖 **RAG**: Criar IA com conhecimento específico dos seus documentos

**Dica do Pedro**: Agora você tem a "matéria-prima" (chunks) perfeitamente preparada. No próximo módulo vamos transformar essa matéria-prima em "conhecimento searchável" para nossa IA! 🚀

In [None]:
# Certificado de conclusão do módulo! 🏆
print("🎓" * 50)
print("🎓" + " " * 48 + "🎓")
print("🎓" + " " * 15 + "CERTIFICADO" + " " * 15 + "🎓")
print("🎓" + " " * 48 + "🎓")
print("🎓  Módulo 6: Document Loading e Splitters      🎓")
print("🎓" + " " * 48 + "🎓")
print("🎓  ✅ Document Loaders - DOMINADO             🎓")
print("🎓  ✅ Text Splitters - DOMINADO               🎓")
print("🎓  ✅ Chunk Optimization - DOMINADO           🎓")
print("🎓  ✅ Workflow Completo - DOMINADO            🎓")
print("🎓" + " " * 48 + "🎓")
print("🎓  🚀 PRONTO PARA O MÓDULO 7: RAG!            🎓")
print("🎓" + " " * 48 + "🎓")
print("🎓" * 50)

print("\n🎉 Parabéns! Você está cada vez mais perto de dominar o LangChain!")
print("📚 No próximo módulo: Vector Stores, Embeddings e RAG Implementation!")
print("🤖 Bora transformar esses chunks em conhecimento inteligente!")

# Preparando dados para o próximo módulo
print("\n💾 Salvando progresso para o próximo módulo...")
progresso_modulo6 = {
    'chunks_processados': len(chunks_finais),
    'estrategias_testadas': 3,
    'exercicios_concluidos': 2,
    'status': 'CONCLUÍDO COM SUCESSO! 🎉'
}

print(f"✅ Progresso salvo: {progresso_modulo6}")
print("\n🚀 Nos vemos no Módulo 7! Bora fazer RAG de verdade!")