---

## üìö Conceitos Fundamentais

### O que s√£o Tokens? üî§

**Tokens** s√£o as unidades b√°sicas de processamento de um modelo de linguagem (LLM).

**Analogia:** Imagine que voc√™ est√° lendo um livro em outro idioma. Voc√™ n√£o l√™ letra por letra, mas sim **palavra por palavra** (ou √†s vezes s√≠labas). Para um LLM, os tokens s√£o essas "palavras".

**Caracter√≠sticas:**
- 1 token ‚âà 4 caracteres em portugu√™s (varia conforme o modelo)
- Palavras comuns = 1 token (ex: "gato", "casa")
- Palavras raras = m√∫ltiplos tokens (ex: "extraordin√°rio" = 3-4 tokens)
- Espa√ßos e pontua√ß√£o tamb√©m s√£o tokens

**Por que importam?**
- LLMs t√™m limite de tokens (ex: GPT-4 = 8k, 32k ou 128k tokens)
- APIs cobram por token processado
- Influenciam velocidade de processamento

---

### O que s√£o Chunks? üì¶

**Chunks** s√£o peda√ßos de texto criados para **armazenamento e busca** em bancos vetoriais.

**Analogia:** Imagine que voc√™ est√° organizando uma biblioteca. Ao inv√©s de guardar livros inteiros em uma prateleira (muito grande), voc√™ divide cada livro em **cap√≠tulos** (chunks). Assim, quando algu√©m pergunta "onde est√° a informa√ß√£o sobre fotoss√≠ntese?", voc√™ n√£o precisa trazer o livro inteiro de biologia, apenas o cap√≠tulo relevante.

**Caracter√≠sticas:**
- Definidos em **caracteres** (ex: 1000 chars) ou **tokens** (ex: 256 tokens)
- Geralmente t√™m **overlap** (sobreposi√ß√£o) para n√£o perder contexto
- Cada chunk vira **1 vetor** no banco vetorial

**Por que importam?**
- Buscas mais precisas (chunks menores = mais espec√≠ficos)
- Controle de custo (menos tokens enviados ao LLM)
- Performance do banco vetorial (chunks balanceados = busca eficiente)

![Vectors chuck example](vectors_chunk_example.png)

---

## üîç A Diferen√ßa Crucial

| Aspecto | Tokens üî§ | Chunks üì¶ |
|---------|-----------|----------|
| **Defini√ß√£o** | Unidades de processamento do LLM | Peda√ßos de texto para busca |
| **Criado por** | Tokenizador do modelo (ex: tiktoken) | Voc√™/desenvolvedor (splitter) |
| **Medido em** | Quantidade de subpalavras | Caracteres ou tokens |
| **Usado para** | Limites de contexto, custos de API | Indexa√ß√£o em banco vetorial |
| **Exemplo** | "extraordin√°rio" = 3 tokens | "1000 caracteres de um PDF" = 1 chunk |
| **Import√¢ncia em RAG** | Define quanto cabe no LLM | Define granularidade da busca |

### üí° Exemplo Pr√°tico

Imagine um artigo cient√≠fico de 10.000 caracteres:

**Chunking:**
- Voc√™ divide em 5 chunks de 2000 chars cada
- Cada chunk vira 1 embedding no FAISS/Qdrant
- Na busca, voc√™ recupera 2 chunks relevantes

**Tokeniza√ß√£o:**
- Os 2 chunks recuperados (4000 chars) = ~1000 tokens
- Esses 1000 tokens s√£o enviados ao LLM como contexto
- O LLM precisa caber isso + sua resposta no limite de tokens

**Em resumo:**
- **Chunks:** Como voc√™ organiza documentos para BUSCAR
- **Tokens:** Como o LLM LIDA com o que voc√™ encontrou

---

## üõ†Ô∏è Setup: Instala√ß√£o de Bibliotecas

In [18]:
# Importa√ß√µes necess√°rias
import tiktoken
from langchain_text_splitters import RecursiveCharacterTextSplitter
import pandas as pd
from IPython.display import display, Markdown

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


---

## üî¢ Calculadora de Tokens

Vamos criar uma fun√ß√£o para contar tokens usando `tiktoken`, a biblioteca oficial da OpenAI.

Um simulador pode ser visto em https://platform.openai.com/tokenizer

### üìñ O que √© tiktoken?

`tiktoken` √© um tokenizador criado pela OpenAI que mostra **exatamente** como modelos como GPT-3.5 e GPT-4 quebram texto em tokens.

**Encodings dispon√≠veis:**
- `cl100k_base`: GPT-4, GPT-3.5-turbo, text-embedding-ada-002
- `p50k_base`: Codex, text-davinci-002, text-davinci-003
- `r50k_base`: GPT-3 (davinci, curie, babbage, ada)

In [19]:
def calc_tokens(text: str, encoding_name: str = "cl100k_base") -> dict:
    """
    Calcula tokens de um texto usando tiktoken.
    
    Args:
        text: Texto para tokenizar
        encoding_name: Nome do encoding (padr√£o: cl100k_base para GPT-4)
    
    Returns:
        Dict com estat√≠sticas de tokens
    """
    # Carrega o encoding
    encoding = tiktoken.get_encoding(encoding_name)
    
    # Tokeniza
    tokens = encoding.encode(text)
    
    # Calcula estat√≠sticas
    num_chars = len(text)
    num_tokens = len(tokens)
    ratio = num_chars / num_tokens if num_tokens > 0 else 0
    
    return {
        "texto": text[:100] + "..." if len(text) > 100 else text,
        "caracteres": num_chars,
        "tokens": num_tokens,
        "chars_por_token": round(ratio, 2),
        "encoding": encoding_name,
        "tokens_list": tokens[:20]  # Primeiros 20 tokens para inspe√ß√£o
    }

# Fun√ß√£o para exibir de forma bonita
def show_token_counts(results: dict):
    """Exibe resultado da contagem de tokens de forma formatada."""
    print("\n" + "="*80)
    print("üìä AN√ÅLISE DE TOKENS")
    print("="*80)
    print(f"\nüìù Texto (preview): {results['texto']}")
    print(f"\nüìè Caracteres: {results['caracteres']:,}")
    print(f"üî¢ Tokens: {results['tokens']:,}")
    print(f"üìê Propor√ß√£o: {results['chars_por_token']} chars/token")
    print(f"‚öôÔ∏è  Encoding: {results['encoding']}")
    print(f"\nüîç Primeiros 20 IDs de tokens: {results['tokens_list']}")
    print("="*80 + "\n")

print("‚úÖ Calculadora de tokens criada!")

‚úÖ Calculadora de tokens criada!


### üß™ Teste 1: Frase Simples

In [20]:
# Teste com frase simples
text = "Ol√°, meu nome √© Jo√£o e eu estudo banco de dados vetoriais!"

results = calc_tokens(text)
show_token_counts(results)

# Insight
print("üí° INSIGHT:")
print(f"   Uma frase de {results['caracteres']} caracteres = {results['tokens']} tokens")
print(f"   Propor√ß√£o: ~{results['chars_por_token']} caracteres por token")


üìä AN√ÅLISE DE TOKENS

üìù Texto (preview): Ol√°, meu nome √© Jo√£o e eu estudo banco de dados vetoriais!

üìè Caracteres: 58
üî¢ Tokens: 19
üìê Propor√ß√£o: 3.05 chars/token
‚öôÔ∏è  Encoding: cl100k_base

üîç Primeiros 20 IDs de tokens: [43819, 1995, 11, 56309, 17567, 4046, 11186, 3496, 384, 15925, 1826, 7835, 53565, 409, 29045, 24195, 11015, 285, 0]

üí° INSIGHT:
   Uma frase de 58 caracteres = 19 tokens
   Propor√ß√£o: ~3.05 caracteres por token


### üß™ Teste 2: Texto T√©cnico

**Observa√ß√£o**: Os tokenizadores gen√©ricos como o `cl100k_base` da OpenAI n√£o s√£o otimizados para portugu√™s, resultando em mais tokens necess√°rios para representar o mesmo texto. O BERTugues, ao remover caracteres irrelevantes para portugu√™s, consegue reduzir significativamente o tamanho da representa√ß√£o, economizando no processamento e custos de API

In [21]:
# Teste com texto t√©cnico (t√≠pico de RAG)
text_pt = """
Retrieval-Augmented Generation (RAG) √© uma arquitetura que combina recupera√ß√£o de informa√ß√µes 
com gera√ß√£o de linguagem natural. O sistema funciona em duas etapas: primeiro, um retriever 
busca documentos relevantes em um banco vetorial usando embeddings sem√¢nticos; depois, um 
Large Language Model (LLM) utiliza esses documentos como contexto para gerar respostas precisas 
e fundamentadas. A vantagem principal do RAG √© a capacidade de acessar conhecimento externo sem 
necessidade de fine-tuning do modelo.
"""

text_en = """
Retrieval-Augmented Generation (RAG) is an architecture that combines information retrieval
with natural language generation. The system operates in two stages: first, a retriever
searches for relevant documents in a vector database using semantic embeddings; then, a
Large Language Model (LLM) uses these documents as context to generate accurate and
grounded responses. The main advantage of RAG is the ability to access external knowledge
without the need for fine-tuning the model.
"""


In [22]:

tokenization_result_pt = calc_tokens(text_pt)
tokenization_result_en = calc_tokens(text_en)
show_token_counts(tokenization_result_en)
show_token_counts(tokenization_result_pt)



üìä AN√ÅLISE DE TOKENS

üìù Texto (preview): 
Retrieval-Augmented Generation (RAG) is an architecture that combines information retrieval
with na...

üìè Caracteres: 487
üî¢ Tokens: 99
üìê Propor√ß√£o: 4.92 chars/token
‚öôÔ∏è  Encoding: cl100k_base

üîç Primeiros 20 IDs de tokens: [198, 12289, 7379, 838, 62735, 28078, 24367, 320, 49, 1929, 8, 374, 459, 18112, 430, 33511, 2038, 57470, 198, 4291]


üìä AN√ÅLISE DE TOKENS

üìù Texto (preview): 
Retrieval-Augmented Generation (RAG) √© uma arquitetura que combina recupera√ß√£o de informa√ß√µes 
com ...

üìè Caracteres: 512
üî¢ Tokens: 125
üìê Propor√ß√£o: 4.1 chars/token
‚öôÔ∏è  Encoding: cl100k_base

üîç Primeiros 20 IDs de tokens: [198, 12289, 7379, 838, 62735, 28078, 24367, 320, 49, 1929, 8, 4046, 10832, 802, 32637, 295, 5808, 1744, 3698, 2259]



In [23]:

# Compara√ß√£o com diferentes encodings
print("\nüî¨ COMPARA√á√ÉO DE ENCODINGS:\n")
encodings = [
    "cl100k_base",  # Usado na fam√≠lia GPT‚Äë3.5 e GPT‚Äë4 (por exemplo, gpt‚Äë3.5‚Äëturbo e gpt‚Äë4)
    "p50k_base",    # Foi usado em modelos GPT‚Äë3 mais novos (e em Codex), com vocabul√°rio de 50k tokens.

    ]
encoding_comparison = []

for enc in encodings:
    res = calc_tokens(text_en, enc)
    encoding_comparison.append({
        "Encoding": enc,
        "Usado em": "GPT-4" if enc == "cl100k_base" else "GPT-3",
        "Tokens": res['tokens'],
        "Chars/Token": res['chars_por_token']
    })

df_encodings = pd.DataFrame(encoding_comparison)
display(df_encodings)

print("\nüí° INSIGHT:")
print("   Diferentes modelos tokenizam de forma diferente!")
print("   Sempre use o encoding correspondente ao seu modelo.")


üî¨ COMPARA√á√ÉO DE ENCODINGS:



Unnamed: 0,Encoding,Usado em,Tokens,Chars/Token
0,cl100k_base,GPT-4,99,4.92
1,p50k_base,GPT-3,104,4.68



üí° INSIGHT:
   Diferentes modelos tokenizam de forma diferente!
   Sempre use o encoding correspondente ao seu modelo.


---

## Calculadora de Chunks

Agora vamos criar uma calculadora de chunks que mostra como diferentes configura√ß√µes afetam a divis√£o do texto.

### Par√¢metros Principais do Chunking

1. **chunk_size**: Tamanho m√°ximo de cada chunk (em caracteres)
2. **chunk_overlap**: Quantos caracteres de sobreposi√ß√£o entre chunks consecutivos
3. **separators**: Ordem de prioridade para quebrar o texto (ex: par√°grafos ‚Üí linhas ‚Üí palavras)

**Por que overlap √© importante?**
- Evita cortar frases/conceitos importantes no meio
- Mant√©m contexto entre chunks adjacentes
- Geralmente usa-se 10-20% do chunk_size

**Como funciona os separadores**

Os **separadores** definem a **ordem de prioridade** de onde o texto pode ser quebrado ao criar chunks. √â uma lista hier√°rquica que o `RecursiveCharacterTextSplitter` usa para dividir o texto de forma inteligente.

O algoritmo tenta **primeiro** usar o separador mais "natural" e, se n√£o conseguir respeitar o `chunk_size`, vai descendo na hierarquia:

```python
separators = ["\n\n", "\n", " ", ""]
```





**Ordem de tentativa:**

1. **`\n\n`** (duas quebras de linha) ‚Üí Quebra por **par√°grafos**
   - Mais natural, mant√©m ideias completas juntas
   - Ideal para textos estruturados

2. **`\n`** (uma quebra de linha) ‚Üí Quebra por **linhas**
   - Se par√°grafos forem muito grandes
   - √ötil para listas, c√≥digo, etc.

3. **` `** (espa√ßo) ‚Üí Quebra por **palavras**
   - Se linhas forem muito longas
   - Evita cortar palavras no meio

4. **`""`** (vazio) ‚Üí Quebra em **qualquer caractere**
   - √öltimo recurso
   - Quando nem palavras cabem (muito raro)

**üí° Exemplo pr√°tico:**

Imagine este texto:

```text
Par√°grafo 1: Este √© um texto longo sobre RAG.\n
Aqui continua a explica√ß√£o sobre retrieval.\n\n

Par√°grafo 2: Agora vou falar de embeddings.\n
Embeddings s√£o representa√ß√µes vetoriais.
```




Com `chunk_size=100` e `separators=["\n\n", "\n", " ", ""]`:

- **1¬™ tentativa:** Quebrar em `\n\n` ‚Üí Se par√°grafo 1 tiver < 100 chars, fica inteiro no chunk
- **Se n√£o couber:** Quebra em `\n` ‚Üí Divide por linhas dentro do par√°grafo
- **Se ainda n√£o couber:** Quebra em ` ` ‚Üí Divide por palavras
- **√öltimo caso:** Quebra caractere por caractere

‚úÖ Por que isso √© importante?

Mant√©m a **coer√™ncia sem√¢ntica** dos chunks:
- ‚úÖ "A fotoss√≠ntese √© um processo..." (chunk completo)
- ‚ùå "A fotoss√≠n..." (cortado no meio - p√©ssimo para embeddings!)

In [24]:
def calc_chunks(text: str, 
                chunk_size: int = 1000, 
                chunk_overlap: int = 200,
                separators: list = []) -> dict:
    """
    Calcula chunks de um texto usando RecursiveCharacterTextSplitter.
    
    Args:
        texto: Texto para dividir
        chunk_size: Tamanho m√°ximo de cada chunk
        chunk_overlap: Sobreposi√ß√£o entre chunks
        separators: Lista de separadores (padr√£o: par√°grafos, linhas, espa√ßos)
    
    Returns:
        Dict com estat√≠sticas de chunking
    """
    if not separators:
        separators = ["\n\n", "\n", " ", ""]
    
    # Cria o splitter
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        separators=separators
    )
    
    # Divide o texto
    chunks = splitter.split_text(text)
    
    # Estat√≠sticas
    chunk_sizes = [len(c) for c in chunks]
    
    return {
        "texto_original": text,
        "chunks": chunks,
        "num_chunks": len(chunks),
        "chunk_size_config": chunk_size,
        "chunk_overlap_config": chunk_overlap,
        "tamanho_medio": sum(chunk_sizes) / len(chunk_sizes) if chunk_sizes else 0,
        "tamanho_min": min(chunk_sizes) if chunk_sizes else 0,
        "tamanho_max": max(chunk_sizes) if chunk_sizes else 0,
        "chars_totais": len(text),
        "separators": separators
    }

def show_chunk_statistics(results: dict, display_content: bool = True):
    """Exibe resultado da divis√£o em chunks de forma formatada."""
    print("\n" + "="*80)
    print("üì¶ AN√ÅLISE DE CHUNKS")
    print("="*80)
    
    print(f"\n‚öôÔ∏è  CONFIGURA√á√ÉO:")
    print(f"   Chunk Size: {results['chunk_size_config']} chars")
    print(f"   Chunk Overlap: {results['chunk_overlap_config']} chars ({results['chunk_overlap_config']/results['chunk_size_config']*100:.0f}%)")
    print(f"   Separators: {results['separators']}")
    
    print(f"\nüìä ESTAT√çSTICAS:")
    print(f"   Caracteres totais: {results['chars_totais']:,}")
    print(f"   N√∫mero de chunks: {results['num_chunks']}")
    print(f"   Tamanho m√©dio: {results['tamanho_medio']:.0f} chars")
    print(f"   Tamanho m√≠nimo: {results['tamanho_min']} chars")
    print(f"   Tamanho m√°ximo: {results['tamanho_max']} chars")
    
    if display_content:
        print(f"\nüìù CONTE√öDO DOS CHUNKS:\n")
        for i, chunk in enumerate(results['chunks'], 1):
            print(f"\n{'‚îÄ'*80}")
            print(f"Chunk {i}/{results['num_chunks']} ({len(chunk)} chars)")
            print(f"{'‚îÄ'*80}")
            preview = chunk[:300] + "..." if len(chunk) > 300 else chunk
            print(preview)
    
    print("\n" + "="*80 + "\n")

print("‚úÖ Calculadora de chunks criada!")

‚úÖ Calculadora de chunks criada!


### üß™ Teste 3: Texto M√©dio com Diferentes Configura√ß√µes

In [35]:
# Texto de exemplo (simulando um artigo)
article = """
Introdu√ß√£o aos Bancos de Dados Vetoriais

Os bancos de dados vetoriais s√£o uma tecnologia emergente crucial para aplica√ß√µes de intelig√™ncia 
artificial moderna. Eles armazenam dados como vetores de alta dimens√£o (embeddings) e permitem 
buscas por similaridade sem√¢ntica.

Principais Caracter√≠sticas

Um embedding √© uma representa√ß√£o num√©rica de dados (texto, imagens, √°udio) em um espa√ßo vetorial. 
Por exemplo, a frase "gato" pode ser representada como um vetor de 768 dimens√µes. Frases com 
significados similares ter√£o vetores pr√≥ximos no espa√ßo vetorial.

Aplica√ß√µes Pr√°ticas

Sistemas RAG (Retrieval-Augmented Generation) s√£o a aplica√ß√£o mais popular. Eles combinam busca 
vetorial com modelos de linguagem para criar assistentes que respondem com base em documentos 
espec√≠ficos. Outras aplica√ß√µes incluem sistemas de recomenda√ß√£o, busca sem√¢ntica em e-commerce, 
e detec√ß√£o de anomalias.

Tecnologias Dispon√≠veis

As principais solu√ß√µes incluem FAISS (Facebook AI), Qdrant, Pinecone, Weaviate e Milvus. FAISS 
√© ideal para prototipagem local, enquanto Qdrant oferece recursos de produ√ß√£o com API REST completa. 
Pinecone √© uma solu√ß√£o gerenciada na nuvem, e Weaviate oferece suporte nativo a GraphQL.

Desafios e Considera√ß√µes

O principal desafio √© o chunking adequado dos documentos. Chunks muito grandes perdem precis√£o na 
busca, enquanto chunks muito pequenos perdem contexto. O overlap entre chunks ajuda a manter a 
coer√™ncia sem√¢ntica. Outra considera√ß√£o importante √© a escolha do modelo de embeddings, que deve 
ser consistente entre indexa√ß√£o e busca.
"""

print(f"üìÑ Texto de exemplo: {len(article)} caracteres\n")

# Teste com configura√ß√£o padr√£o
chunked_article_results = calc_chunks(article, chunk_size=500, chunk_overlap=100)
show_chunk_statistics(chunked_article_results, display_content=False)

üìÑ Texto de exemplo: 1571 caracteres


üì¶ AN√ÅLISE DE CHUNKS

‚öôÔ∏è  CONFIGURA√á√ÉO:
   Chunk Size: 500 chars
   Chunk Overlap: 100 chars (20%)
   Separators: ['\n\n', '\n', ' ', '']

üìä ESTAT√çSTICAS:
   Caracteres totais: 1,571
   N√∫mero de chunks: 5
   Tamanho m√©dio: 332 chars
   Tamanho m√≠nimo: 299 chars
   Tamanho m√°ximo: 359 chars




### üß™ Teste 4: Compara√ß√£o de Diferentes Chunk Sizes

In [36]:
# Testar diferentes tamanhos de chunk
configs = [
    {"chunk_size": 200, "chunk_overlap": 40},   # Chunks pequenos
    {"chunk_size": 500, "chunk_overlap": 100},  # Chunks m√©dios
    {"chunk_size": 1000, "chunk_overlap": 200}, # Chunks grandes
]

print("\nüî¨ COMPARA√á√ÉO DE CONFIGURA√á√ïES DE CHUNKING\n")

chunking_comparison_results = []

for config in configs:
    res = calc_chunks(article, **config)
    chunking_comparison_results.append({
        "Chunk Size": config['chunk_size'],
        "Overlap": config['chunk_overlap'],
        "Overlap %": f"{config['chunk_overlap']/config['chunk_size']*100:.0f}%",
        "N¬∫ Chunks": res['num_chunks'],
        "Tamanho M√©dio": f"{res['tamanho_medio']:.0f} chars",
        "Tamanho Min": res['tamanho_min'],
        "Tamanho Max": res['tamanho_max']
    })

df_chunks = pd.DataFrame(chunking_comparison_results)
display(df_chunks)

print("\nüí° INSIGHTS:")
print("   - Chunks menores = mais chunks = busca mais precisa (mas menos contexto)")
print("   - Chunks maiores = menos chunks = mais contexto (mas busca menos precisa)")
print("   - Overlap de 20% (do chunk_size) √© um bom equil√≠brio")
print("   - Para produ√ß√£o RAG, chunk_size entre 500-1000 chars √© comum")


üî¨ COMPARA√á√ÉO DE CONFIGURA√á√ïES DE CHUNKING



Unnamed: 0,Chunk Size,Overlap,Overlap %,N¬∫ Chunks,Tamanho M√©dio,Tamanho Min,Tamanho Max
0,200,40,20%,15,103 chars,19,196
1,500,100,20%,5,332 chars,299,359
2,1000,200,20%,2,796 chars,672,920



üí° INSIGHTS:
   - Chunks menores = mais chunks = busca mais precisa (mas menos contexto)
   - Chunks maiores = menos chunks = mais contexto (mas busca menos precisa)
   - Overlap de 20% (do chunk_size) √© um bom equil√≠brio
   - Para produ√ß√£o RAG, chunk_size entre 500-1000 chars √© comum


## Import√¢ncia do Tamanho do Chunk

O tamanho do chunk √© **crucial** porque afeta diretamente tr√™s aspectos do sistema RAG:

### 1. Precis√£o da Busca Sem√¢ntica

**Chunks pequenos (200-400 chars):**
- ‚úÖ Alta precis√£o: retornam informa√ß√£o muito espec√≠fica
- ‚ùå Pouco contexto: podem perder o "quadro geral"
- üìç Uso: FAQs, dicion√°rios, documenta√ß√£o de APIs

**Chunks grandes (1500-2000 chars):**
- ‚úÖ Muito contexto: capturam conceitos completos
- ‚ùå Baixa precis√£o: diluem a relev√¢ncia sem√¢ntica
- üìç Uso: narrativas, an√°lises longas

### 2. Custo e Performance

- **Custo de API:** Mais chunks recuperados (k alto) com chunks grandes = mais tokens = mais caro
- **Lat√™ncia:** Chunks grandes demoram mais para gerar embeddings e retornar
- **Armazenamento:** Cada chunk = 1 vetor no banco (chunks pequenos = mais vetores)

### 3. Qualidade das Respostas do LLM

- **Context window:** LLMs t√™m limite de tokens (ex: GPT-4 = 8k, 128k)
- **Chunk muito grande:** Pode estourar o limite mesmo com k=2 ou k=3
- **Chunk muito pequeno:** LLM recebe informa√ß√£o fragmentada, gera respostas incompletas

---

## Tamanhos Padr√£o da Ind√∫stria

### Configura√ß√µes mais comuns (2024-2025)


| Aplica√ß√£o | Chunk Size (chars) | Chunk Size (tokens) | Overlap | k | Justificativa |
|-----------|-------------------|---------------------|---------|---|---------------|
| **RAG Gen√©rico (Baseline)** | **1600-2000** | **400-512** | **10-20%** | **4-5** | Sweet spot recomendado; equil√≠brio ideal entre contexto e precis√£o |
| **FAQ/Suporte** | **800-1200** | **200-400** | **10-15%** | **4-6** | Respostas isoladas e completas; quest√µes espec√≠ficas |
| **Chatbots Empresariais** | **1600-2400** | **400-600** | **15-20%** | **4-5** | Contexto mais amplo para respostas complexas; n√£o t√£o pequeno quanto FAQ |
| **Documenta√ß√£o T√©cnica** | **2000-2800** | **500-700** | **20-25%** | **3-4** | Inclui exemplos, par√¢metros e contexto completo de m√©todos API |
| **An√°lise de Documentos** | **2400-3600** | **600-900** | **20-25%** | **2-4** | Contexto profundo para an√°lise hol√≠stica; busca sem√¢ntica |
| **Academic Papers** | **2800-4800** | **700-1200** | **30%+** | **2-3** | Constru√ß√£o incremental de conceitos; preserva√ß√£o de figuras e tabelas |
| **Legal/Compliance** | **3200-5000** | **800-1250** | **25-30%** | **2-3** | Precis√£o jur√≠dica; mant√©m cl√°usulas e refer√™ncias legais completas |
| **Code Search/Repositories** | **1200-2000** | **300-512** | **10-15%** | **3-5** | Fun√ß√µes e classes completas; respeita limites de estrutura de c√≥digo |
| **News/Blog Posts** | **1600-2400** | **400-600** | **15-20%** | **4-5** | Estrutura editorial j√° otimizada para leitura; par√°grafos naturais |

#### Notas Importantes

- **Sweet Spot**: **256-512 tokens** √© o intervalo recomendado pela maioria dos especialistas como ponto de partida para experimenta√ß√£o
- **Overlap**: recomend√°vel **10-20% de overlap** para a maioria dos casos, aumentando para **25-30%** em documentos legais e acad√™micos para preservar contexto.
- **Par√¢metro k** (chunks recuperados): sugere-se **k=5** como padr√£o em muitos estudos de RAG, com varia√ß√£o de **2-6** conforme a aplica√ß√£o. Valores mais baixos (2-3) para documentos densos (legal, academic); valores mais altos (4-6) para consultas gerais
- **Estrat√©gia de Chunking**: os valores acima assumem **recursive/semantic chunking** (padr√£o recomendado para 80% das aplica√ß√µes), n√£o simple size-based chunking.

#### Refer√™ncias da Ind√∫stria

- https://www.pinecone.io/learn/rag-best-practices/#chunk-size
- https://www.firecrawl.dev/blog/best-chunking-strategies-rag-2025
- https://arxiv.org/html/2508.02435v1
- https://www.sciencedirect.com/science/article/pii/S0920548925000248

### Convers√£o Aproximada

**Regra pr√°tica:** 
- **1 token ‚âà 4 caracteres** (portugu√™s)
- **1 token ‚âà 4 caracteres** (ingl√™s)
- **Chunk de 1000 chars ‚âà 250 tokens**
- **Chunk de 1800 chars ‚âà 450 tokens** (baseline 2024-2025)
- **Chunk de 2000 chars ‚âà 512 tokens** (limite superior baseline)

## Recomenda√ß√£o da Ind√∫stria (Consenso 2024-2025)

### **Sweet Spot Universal:**

```python
chunk_size = 1800        # caracteres (baseline: 1600-2000)
chunk_overlap = 300      # ~17% do chunk_size (range: 10-20%)
k = 4                    # chunks recuperados (range: 4-5)
chunk_overlap = 200      # 20% do chunk_size
```


**üìä Evolu√ß√£o das Recomenda√ß√µes:**
- **2024-2025:** 1600-2000 chars (sweet spot: 1800)
- **2022-2023:** 800-1000 chars era o padr√£o



**Por qu√™?**
1. **1800 chars ‚âà 450 tokens/chunk** ‚Üí Equil√≠brio ideal entre contexto e precis√£o
2. **k=4 chunks = ~1800 tokens** ‚Üí Contexto rico sem estourar limites de modelos modernos
3. **Overlap de 17% (300 chars)** ‚Üí Preserva contexto entre chunks sem duplica√ß√£o excessiva
4. **Flex√≠vel:** Funciona bem para 70-80% dos casos de uso gen√©ricos
5. **Compat√≠vel:** Aproveitam context windows maiores dos LLMs modernos (GPT-4: 128k, Claude-3: 200k)

---

## üìê Como Escolher o Tamanho Ideal?

### M√©todo Emp√≠rico (recomendado para produ√ß√£o):
1. **Comece com 1800 chars, overlap 300** (baseline 2024-2025)
2. **Teste com 20-50 perguntas reais** do seu dom√≠nio
3. **Me√ßa m√©tricas:**
   - Relev√¢ncia das respostas (1-5)
   - Taxa de "n√£o sei" (se LLM n√£o acha informa√ß√£o)
   - Lat√™ncia de resposta
4. **Ajuste iterativamente:**
   - Respostas vagas/imprecisas? ‚Üí Reduza chunk_size (1200-1400)
   - Respostas fragmentadas? ‚Üí Aumente chunk_size (2200-2400)
   - Custo alto? ‚Üí Reduza k (de 4 para 3) ou chunk_size
   - Performance lenta? ‚Üí Reduza chunk_size ou k

### üß™ Exemplo de Teste A/B:

```python

test_configs = [
    {"chunk_size": 1200, "overlap": 200, "k": 5},   # Precis√£o (FAQ/Suporte)
    {"chunk_size": 1800, "overlap": 300, "k": 4},   # Baseline 2024-2025
    {"chunk_size": 2400, "overlap": 400, "k": 3},   # Contexto (Docs T√©cnicos)
    {"chunk_size": 1000, "overlap": 200, "k": 4},  # Padr√£o
    {"chunk_size": 1500, "overlap": 300, "k": 3},  # Contexto
]
```

- Teste com perguntas reais do seu dom√≠nio
- Me√ßa qualidade, custo e lat√™ncia
- Compare com m√©tricas de baseline





---

## Erros Comuns

‚ùå **"Vou usar 5000 chars para ter mais contexto!"**
‚Üí Resultado: Busca imprecisa, retorna chunks irrelevantes

‚ùå **"Vou usar 100 chars para ter precis√£o m√°xima!"**
‚Üí Resultado: Respostas fragmentadas, LLM n√£o entende contexto

‚ùå **"Vou usar k=10 para garantir que tenho tudo!"**
‚Üí Resultado: Custo alto, informa√ß√£o irrelevante dilui a relevante

‚úÖ **Abordagem correta:**
- Comece com padr√£o da ind√∫stria (1800/300/k=4)
- Me√ßa resultados com dados reais
- Ajuste baseado em m√©tricas objetivas



---

## üéØ Calculadora Combinada: Tokens + Chunks

Agora vamos combinar as duas an√°lises para entender o impacto completo no sistema RAG.

In [37]:
def perform_rag_analysis(text: str,
                        chunk_size: int = 1000,
                        chunk_overlap: int = 200,
                        num_chunks_retrieved: int = 4,
                        encoding: str = "cl100k_base"):
    """
    An√°lise completa simulando um pipeline RAG:
    1. Divide o texto em chunks
    2. Calcula tokens por chunk
    3. Simula recupera√ß√£o de k chunks
    4. Calcula tokens totais que ser√£o enviados ao LLM
    
    Args:
        texto: Documento original
        chunk_size: Tamanho dos chunks
        chunk_overlap: Overlap entre chunks
        k_recuperados: Quantos chunks ser√£o recuperados na busca
        encoding: Encoding do tiktoken
    """
    print("\n" + "="*80)
    print("üéØ AN√ÅLISE COMPLETA RAG: CHUNKS + TOKENS")
    print("="*80)
    
    # 1. An√°lise do documento original
    print("\nüìÑ DOCUMENTO ORIGINAL:")
    tokens_original = calc_tokens(text, encoding)
    print(f"   Caracteres: {tokens_original['caracteres']:,}")
    print(f"   Tokens: {tokens_original['tokens']:,}")
    
    # 2. Chunking
    print("\n‚úÇÔ∏è  CHUNKING:")
    chunks_result = calc_chunks(text, chunk_size, chunk_overlap)
    print(f"   Configura√ß√£o: {chunk_size} chars, overlap {chunk_overlap} ({chunk_overlap/chunk_size*100:.0f}%)")
    print(f"   Chunks criados: {chunks_result['num_chunks']}")
    print(f"   Tamanho m√©dio: {chunks_result['tamanho_medio']:.0f} chars/chunk")
    
    # 3. Tokens por chunk
    print("\nüî¢ TOKENS POR CHUNK:")
    tokens_por_chunk = []
    for i, chunk in enumerate(chunks_result['chunks'], 1):
        tokens_chunk = calc_tokens(chunk, encoding)
        tokens_por_chunk.append({
            "Chunk": i,
            "Caracteres": len(chunk),
            "Tokens": tokens_chunk['tokens']
        })
    
    df_tokens_chunks = pd.DataFrame(tokens_por_chunk)
    display(df_tokens_chunks)
    
    # 4. Simula√ß√£o de recupera√ß√£o (RAG)
    print(f"\nüîç SIMULA√á√ÉO DE BUSCA (k={num_chunks_retrieved}):")
    chunks_recuperados = min(num_chunks_retrieved, chunks_result['num_chunks'])
    tokens_recuperados = sum(tokens_por_chunk[i]['Tokens'] for i in range(chunks_recuperados))
    chars_recuperados = sum(tokens_por_chunk[i]['Caracteres'] for i in range(chunks_recuperados))
    
    print(f"   Chunks recuperados: {chunks_recuperados}")
    print(f"   Caracteres enviados ao LLM: {chars_recuperados:,}")
    print(f"   Tokens enviados ao LLM: {tokens_recuperados:,}")
    
    # 5. An√°lise de custo/efici√™ncia
    print("\nüí∞ AN√ÅLISE DE EFICI√äNCIA:")
    reducao_chars = (1 - chars_recuperados / tokens_original['caracteres']) * 100
    reducao_tokens = (1 - tokens_recuperados / tokens_original['tokens']) * 100
    
    print(f"   Redu√ß√£o de caracteres: {reducao_chars:.1f}%")
    print(f"   Redu√ß√£o de tokens: {reducao_tokens:.1f}%")
    print(f"   Economia: Voc√™ est√° enviando apenas {100-reducao_tokens:.1f}% do documento!")
    
    # 6. Limites de contexto
    print("\nüö¶ VERIFICA√á√ÉO DE LIMITES:")
    limites = {
        "GPT-3.5-turbo": 4096,
        "GPT-4": 8192,
        "GPT-4-turbo": 128000,
        "Claude-3": 200000
    }
    
    # Reservar 500 tokens para resposta
    tokens_com_resposta = tokens_recuperados + 500
    
    for modelo, limite in limites.items():
        percentual = (tokens_com_resposta / limite) * 100
        status = "‚úÖ" if percentual < 80 else "‚ö†Ô∏è" if percentual < 100 else "‚ùå"
        print(f"   {status} {modelo} ({limite:,} tokens): {percentual:.1f}% usado")
    
    print("\n" + "="*80 + "\n")
    
    return {
        "chunks_result": chunks_result,
        "tokens_original": tokens_original,
        "tokens_recuperados": tokens_recuperados,
        "chars_recuperados": chars_recuperados
    }

print("‚úÖ Calculadora combinada criada!")

‚úÖ Calculadora combinada criada!


### üß™ Teste 5: An√°lise Completa do Artigo

In [38]:
# An√°lise completa com configura√ß√£o t√≠pica de RAG
complete_analysis_result = perform_rag_analysis(
    text=article,
    chunk_size=500,
    chunk_overlap=100,
    num_chunks_retrieved=3,
    encoding="cl100k_base"
)


üéØ AN√ÅLISE COMPLETA RAG: CHUNKS + TOKENS

üìÑ DOCUMENTO ORIGINAL:
   Caracteres: 1,571
   Tokens: 418

‚úÇÔ∏è  CHUNKING:
   Configura√ß√£o: 500 chars, overlap 100 (20%)
   Chunks criados: 5
   Tamanho m√©dio: 332 chars/chunk

üî¢ TOKENS POR CHUNK:


Unnamed: 0,Chunk,Caracteres,Tokens
0,1,299,79
1,2,307,81
2,3,359,94
3,4,337,99
4,5,359,88



üîç SIMULA√á√ÉO DE BUSCA (k=3):
   Chunks recuperados: 3
   Caracteres enviados ao LLM: 965
   Tokens enviados ao LLM: 254

üí∞ AN√ÅLISE DE EFICI√äNCIA:
   Redu√ß√£o de caracteres: 38.6%
   Redu√ß√£o de tokens: 39.2%
   Economia: Voc√™ est√° enviando apenas 60.8% do documento!

üö¶ VERIFICA√á√ÉO DE LIMITES:
   ‚úÖ GPT-3.5-turbo (4,096 tokens): 18.4% usado
   ‚úÖ GPT-4 (8,192 tokens): 9.2% usado
   ‚úÖ GPT-4-turbo (128,000 tokens): 0.6% usado
   ‚úÖ Claude-3 (200,000 tokens): 0.4% usado




---

## üáßüá∑ Teste 6: Tokeniza√ß√£o Otimizada para Portugu√™s

Vamos comparar a tokeniza√ß√£o do `tiktoken` (otimizado para ingl√™s) com o **BERTugues** (otimizado para portugu√™s).

### üìñ O que √© BERTugues?

BERTugues √© uma vers√£o do BERT treinada especificamente para portugu√™s brasileiro. Sua principal vantagem √© a **efici√™ncia na tokeniza√ß√£o** de textos em portugu√™s, resultando em menos tokens para representar o mesmo conte√∫do.

In [39]:
# Importa√ß√µes para tokeniza√ß√£o com BERTugues
from transformers import BertTokenizer, BertModel
import torch

print("‚úÖ Bibliotecas para BERTugues importadas!")

‚úÖ Bibliotecas para BERTugues importadas!


In [40]:
# Carregar o tokenizador e o modelo BERTugues
print("üîÑ Carregando BERTugues (pode levar alguns segundos)...\n")

tokenizer_bert = BertTokenizer.from_pretrained(
    "ricardoz/BERTugues-base-portuguese-cased", 
    do_lower_case=False
)

model_bert = BertModel.from_pretrained(
    "ricardoz/BERTugues-base-portuguese-cased"
)

print("‚úÖ BERTugues carregado com sucesso!")
print(f"üìä Vocabul√°rio: {tokenizer_bert.vocab_size:,} tokens")

üîÑ Carregando BERTugues (pode levar alguns segundos)...

‚úÖ BERTugues carregado com sucesso!
üìä Vocabul√°rio: 30,522 tokens


In [41]:
def calc_tokens_bertugues(text: str) -> dict:
    """
    Calcula tokens usando BERTugues (otimizado para portugu√™s).
    
    Args:
        text: Texto para tokenizar
    
    Returns:
        Dict com estat√≠sticas de tokens e embeddings
    """
    # Tokenizar
    tokens = tokenizer_bert.tokenize(text)
    input_ids = tokenizer_bert.encode(text, return_tensors='pt')
    
    # Gerar embeddings
    with torch.no_grad():
        outputs = model_bert(input_ids)
        embeddings = outputs.last_hidden_state
    
    # Calcular estat√≠sticas
    num_chars = len(text)
    num_tokens = len(tokens)
    ratio = num_chars / num_tokens if num_tokens > 0 else 0
    
    return {
        "texto": text[:100] + "..." if len(text) > 100 else text,
        "caracteres": num_chars,
        "tokens": num_tokens,
        "chars_por_token": round(ratio, 2),
        "encoding": "BERTugues",
        "tokens_list": tokens[:20],  # Primeiros 20 tokens
        "embedding_shape": embeddings.shape,
        "vocab_size": tokenizer_bert.vocab_size
    }

# Teste com o mesmo texto t√©cnico usado anteriormente
resultado_bert = calc_tokens_bertugues(text_pt)

# Exibir usando formato similar aos testes anteriores
print("\n" + "="*80)
print("üìä AN√ÅLISE DE TOKENS - BERTugues")
print("="*80)
print(f"\nüìù Texto (preview): {resultado_bert['texto']}")
print(f"\nüìè Caracteres: {resultado_bert['caracteres']:,}")
print(f"üî¢ Tokens: {resultado_bert['tokens']:,}")
print(f"üìê Propor√ß√£o: {resultado_bert['chars_por_token']} chars/token")
print(f"‚öôÔ∏è  Encoding: {resultado_bert['encoding']}")
print(f"üì¶ Tamanho do vocabul√°rio: {resultado_bert['vocab_size']:,}")
print(f"üßÆ Shape dos embeddings: {resultado_bert['embedding_shape']}")
print(f"\nüîç Primeiros 20 tokens:")
for i in range(0, min(20, len(resultado_bert['tokens_list'])), 5):
    tokens_linha = resultado_bert['tokens_list'][i:i+5]
    print(f"   {tokens_linha}")
print("="*80 + "\n")

# Compara√ß√£o com tiktoken
print("üî¨ COMPARA√á√ÉO: BERTugues vs tiktoken (cl100k_base)\n")

comparacao_modelos = pd.DataFrame([
    {
        "Modelo": "tiktoken (GPT-4)",
        "Otimizado para": "Ingl√™s",
        "Tokens": tokenization_result_pt['tokens'],
        "Chars/Token": tokenization_result_pt['chars_por_token'],
        "Economia": "baseline"
    },
    {
        "Modelo": "BERTugues",
        "Otimizado para": "Portugu√™s",
        "Tokens": resultado_bert['tokens'],
        "Chars/Token": resultado_bert['chars_por_token'],
        "Economia": f"{((tokenization_result_pt['tokens'] - resultado_bert['tokens']) / tokenization_result_pt['tokens'] * 100):.1f}%"
    }
])

display(comparacao_modelos)

print("\nüí° INSIGHTS:")
print(f"   - BERTugues usa {resultado_bert['tokens']} tokens vs {tokenization_result_pt['tokens']} do tiktoken")
print(f"   - Redu√ß√£o de {((tokenization_result_pt['tokens'] - resultado_bert['tokens']) / tokenization_result_pt['tokens'] * 100):.1f}% no n√∫mero de tokens")
print(f"   - Cada token do BERTugues representa ~{resultado_bert['chars_por_token']} caracteres")
print("   - Para textos em portugu√™s, BERTugues √© mais eficiente!")
print("   - Economia direta em custo de API e processamento")


üìä AN√ÅLISE DE TOKENS - BERTugues

üìù Texto (preview): 
Retrieval-Augmented Generation (RAG) √© uma arquitetura que combina recupera√ß√£o de informa√ß√µes 
com ...

üìè Caracteres: 512
üî¢ Tokens: 105
üìê Propor√ß√£o: 4.88 chars/token
‚öôÔ∏è  Encoding: BERTugues
üì¶ Tamanho do vocabul√°rio: 30,522
üßÆ Shape dos embeddings: torch.Size([1, 107, 768])

üîç Primeiros 20 tokens:
   ['Ret', '##rie', '##val', '-', 'Aug']
   ['##mente', '##d', 'Generation', '(', 'RA']
   ['##G', ')', '√©', 'uma', 'arquitetura']
   ['que', 'combina', 'recupera√ß√£o', 'de', 'informa√ß√µes']

üî¨ COMPARA√á√ÉO: BERTugues vs tiktoken (cl100k_base)



Unnamed: 0,Modelo,Otimizado para,Tokens,Chars/Token,Economia
0,tiktoken (GPT-4),Ingl√™s,125,4.1,baseline
1,BERTugues,Portugu√™s,105,4.88,16.0%



üí° INSIGHTS:
   - BERTugues usa 105 tokens vs 125 do tiktoken
   - Redu√ß√£o de 16.0% no n√∫mero de tokens
   - Cada token do BERTugues representa ~4.88 caracteres
   - Para textos em portugu√™s, BERTugues √© mais eficiente!
   - Economia direta em custo de API e processamento


---

## üéì Exerc√≠cios Pr√°ticos

Agora √© sua vez! Use as calculadoras acima para explorar diferentes cen√°rios.

### üìù Exerc√≠cio 1: Otimiza√ß√£o de Chunks

**Desafio:** Voc√™ tem um documento de 5000 caracteres e quer recuperar 4 chunks. Qual configura√ß√£o de `chunk_size` e `chunk_overlap` resulta em:
- Aproximadamente 6-8 chunks totais?
- Tokens enviados ao LLM < 1000?

**Instru√ß√µes:**
1. Crie um texto de exemplo de ~5000 chars
2. Teste diferentes configura√ß√µes
3. Use `analise_completa_rag()` para verificar

In [42]:
# SEU C√ìDIGO AQUI
# Dica: Comece com chunk_size=800, chunk_overlap=160

# texto_exercicio_1 = "..." * 100  # crie um texto de ~5000 chars
# analise_completa_rag(texto_exercicio_1, chunk_size=???, chunk_overlap=???, k_recuperados=4)

### üìù Exerc√≠cio 2: An√°lise de Custo

**Contexto:** Voc√™ tem 100 PDFs de 50 p√°ginas cada (m√©dia de 3000 chars/p√°gina).

**Desafio:** Compare duas estrat√©gias:
- **Estrat√©gia A:** chunk_size=500, k=5
- **Estrat√©gia B:** chunk_size=1000, k=3

Qual estrat√©gia envia menos tokens ao LLM em m√©dia?

In [43]:
# SEU C√ìDIGO AQUI
# Dica: Simule uma p√°gina t√≠pica e calcule tokens para cada estrat√©gia

# pagina_tipica = "..." * 50  # ~3000 chars
# estrategia_a = analise_completa_rag(pagina_tipica, chunk_size=500, k_recuperados=5)
# estrategia_b = analise_completa_rag(pagina_tipica, chunk_size=1000, k_recuperados=3)

### üìù Exerc√≠cio 3: Detec√ß√£o de Problemas

**Cen√°rio:** Um colega configurou um sistema RAG assim:
- chunk_size=5000
- chunk_overlap=0
- k=1

**Desafio:** Identifique 3 problemas com essa configura√ß√£o e sugira melhorias.

In [44]:
# SEU C√ìDIGO AQUI
# Teste a configura√ß√£o problem√°tica e compare com uma melhor

# resultado_ruim = analise_completa_rag(artigo, chunk_size=5000, chunk_overlap=0, k_recuperados=1)
# resultado_bom = analise_completa_rag(artigo, chunk_size=???, chunk_overlap=???, k_recuperados=???)

---

## Conclus√£o

### O que aprendemos:

1. **Tokens** s√£o unidades de processamento do LLM
   - Determinam custos e limites de contexto
   - Variam conforme o modelo/encoding

2. **Chunks** s√£o unidades de armazenamento e busca
   - Determinam precis√£o da recupera√ß√£o
   - Voc√™ controla o tamanho e overlap

3. **A rela√ß√£o entre eles:**
   ```
   Chunks (sua escolha) ‚Üí Busca ‚Üí Tokens (para o LLM)
   ```

4. **Otimiza√ß√£o √© balanceamento:**
   - Chunks menores = busca precisa, mas menos contexto
   - Chunks maiores = mais contexto, mas busca vaga
   - Tokens recuperados devem caber no limite do modelo

### üöÄ Pr√≥ximos Passos:

1. Aplique essas calculadoras nos seus pr√≥prios documentos
2. Experimente diferentes configura√ß√µes e me√ßa qualidade das respostas
3. Documente suas melhores configura√ß√µes para cada tipo de documento
4. Compartilhe descobertas com a turma!

---

**Boa pr√°tica em RAG! üéì**