# Chonkie.ai - Advanced Text Chunking for RAG Applications

`by João Gabriel Lima`

## 🎯 **Objetivo**

Este notebook explora **Chonkie.ai**, uma biblioteca Python especializada em chunking de texto para aplicações RAG (Retrieval-Augmented Generation). Vamos analisar as 9 estratégias de chunking disponíveis, implementar casos de uso práticos e avaliar performance.

## 📋 **Conteúdo**

1. [Introdução e Instalação](#intro)
2. [Configuração e Imports](#config)
3. [Análise Comparativa dos Chunkers](#comparison)
4. [Implementação Prática](#implementation)
5. [Casos de Uso Específicos](#use-cases)
6. [Análise de Performance](#performance)
7. [Troubleshooting e Limitações](#troubleshooting)
8. [Conclusões e Recomendações](#conclusions)

---

## 🔧 **Pré-requisitos**

- Python 3.8+
- Conhecimento básico de NLP e RAG
- Familiaridade com embeddings e modelos de linguagem


## 📦 **Instalação** <a id="intro"></a>

### Instalação Básica


In [None]:
# Core Chonkie imports
from chonkie import (
    TokenChunker,
    SentenceChunker, 
    RecursiveChunker,
    SemanticChunker,
    SDPMChunker,
    LateChunker,
    NeuralChunker,
    SlumberChunker,
    CodeChunker
)

# Additional utilities
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from time import time
from typing import List, Dict, Any
import warnings
warnings.filterwarnings('ignore')

# Configuration
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Imports realizados com sucesso!")
print(f"📊 Chunkers disponíveis: {len([TokenChunker, SentenceChunker, RecursiveChunker, SemanticChunker, SDPMChunker, LateChunker, NeuralChunker, SlumberChunker, CodeChunker])}")



## 🔍 **Análise Comparativa dos Chunkers** <a id="comparison"></a>

### Chunkers Comparison Table

A tabela abaixo detalha as principais diferenças, casos de uso e funcionamento de cada chunker disponível no Chonkie.ai:

| Chunker | Estratégia | Caso de Uso Ideal | Performance | Complexidade | Requer Modelo |
|---------|------------|-------------------|-------------|--------------|---------------|
| **TokenChunker** | Divisão por tokens fixos | APIs com limites de tokens, controle preciso | Muito Alta | Baixa | Tokenizer |
| **SentenceChunker** | Divisão por limites de sentença | Documentos bem estruturados, textos narrativos | Alta | Baixa | Não |
| **RecursiveChunker** | Divisão hierárquica com regras customizáveis | Documentos hierárquicos, papers acadêmicos | Média-Alta | Média | Não |
| **SemanticChunker** | Agrupamento por similaridade semântica | Documentos longos, conteúdo heterogêneo | Média | Alta | Embedding Model |
| **SDPMChunker** | Semantic Double-Pass Merge | Documentos complexos, alta precisão semântica | Média-Baixa | Muito Alta | Embedding Model |
| **LateChunker** | Embedding primeiro, chunk depois | RAG avançado, preservação de contexto | Baixa | Muito Alta | Embedding Model |
| **NeuralChunker** | Chunking baseado em redes neurais | Documentos não estruturados, ML avançado | Baixa | Muito Alta | Neural Model |
| **SlumberChunker** | Chunking otimizado para embeddings | Otimização para embedding models | Média | Alta | Embedding Model |
| **CodeChunker** | Chunking específico para código fonte | Repositórios de código, documentação técnica | Alta | Média | Não |

### 🔍 **Detalhamento das Estratégias**

#### **TokenChunker** 🚀
- **Como funciona**: Divide texto em chunks de tamanho fixo baseado em contagem de tokens
- **Vantagem**: Controle preciso para limites de API, processamento muito rápido
- **Ideal para**: OpenAI API, Claude API, modelos com limites rígidos de contexto

#### **SentenceChunker** 📝  
- **Como funciona**: Agrupa sentenças em chunks respeitando limites semânticos
- **Vantagem**: Preserva integridade semântica, fácil de implementar
- **Ideal para**: Textos narrativos, documentos educacionais, artigos de blog

#### **RecursiveChunker** 🌳
- **Como funciona**: Aplica regras hierárquicas (headers → parágrafos → sentenças)
- **Vantagem**: Respeita estrutura do documento, configurável
- **Ideal para**: Papers acadêmicos, documentação técnica, relatórios estruturados

#### **SemanticChunker** 🧠
- **Como funciona**: Usa embeddings para agrupar conteúdo semanticamente similar
- **Vantagem**: Chunks tematicamente coerentes, melhor para recuperação
- **Ideal para**: Documentos longos, conteúdo multi-tópico, knowledge bases

#### **LateChunker** ⚡
- **Como funciona**: Processa documento inteiro primeiro, depois chunking com contexto global
- **Vantagem**: Preserva contexto máximo, estado da arte para RAG
- **Ideal para**: RAG de alta qualidade, documentos complexos

#### **SDPMChunker** 🔄
- **Como funciona**: Semantic Double-Pass Merge - duas passadas para otimizar semântica
- **Vantagem**: Máxima precisão semântica, reduz perda de contexto
- **Ideal para**: Documentos científicos complexos, análise legal, pesquisa médica

#### **NeuralChunker** 🤖
- **Como funciona**: Redes neurais treinadas para identificar pontos ideais de divisão
- **Vantagem**: Aprende padrões complexos, adaptável a diferentes domínios
- **Ideal para**: Textos não estruturados, linguagem natural complexa

#### **SlumberChunker** 😴
- **Como funciona**: Chunking otimizado especificamente para modelos de embedding
- **Vantagem**: Maximiza qualidade dos embeddings resultantes
- **Ideal para**: Sistemas de busca semântica, recomendação de conteúdo

#### **CodeChunker** 💻
- **Como funciona**: Usa AST (Abstract Syntax Tree) para chunking inteligente de código
- **Vantagem**: Preserva estrutura sintática, respeita funções e classes
- **Ideal para**: Documentação de código, análise de repositórios, AI coding assistants

### ⚖️ **Guia de Seleção Rápida**

| Prioridade | Escolha | Justificativa |
|------------|---------|---------------|
| **Velocidade** | TokenChunker → SentenceChunker → CodeChunker | Performance máxima |
| **Qualidade RAG** | LateChunker → SDPMChunker → SemanticChunker | Contexto preservado |
| **Simplicidade** | SentenceChunker → TokenChunker → RecursiveChunker | Fácil implementação |
| **Flexibilidade** | RecursiveChunker → SemanticChunker → NeuralChunker | Configurabilidade |


## 🚀 **Implementação Prática** <a id="implementation"></a>

### Preparação dos Dados de Teste

Vamos criar textos de exemplo para diferentes cenários:


#### Texto Científico

In [None]:
# Dados de teste para diferentes cenários

# Texto médico/científico
medical_text = """
## Introdução

A inteligência artificial (IA) está revolucionando o setor de saúde, especialmente no diagnóstico médico. 
Machine learning e deep learning permitem análises mais precisas de exames de imagem, como radiografias, tomografias e ressonâncias magnéticas.

## Metodologia

Neste estudo, utilizamos uma rede neural convolucional (CNN) para classificar imagens de radiografias de tórax. 
O dataset contém 10.000 imagens categorizadas em três classes: normal, pneumonia e COVID-19.

### Pré-processamento

As imagens foram redimensionadas para 224x224 pixels e normalizadas. Aplicamos técnicas de data augmentation 
para aumentar a variabilidade dos dados de treinamento.

## Resultados

O modelo alcançou uma acurácia de 94.2% no conjunto de teste, superando métodos convencionais. 
A sensibilidade para detecção de pneumonia foi de 96.1%, e para COVID-19, 91.8%.

## Conclusão

Os resultados demonstram o potencial da IA no diagnóstico médico, oferecendo uma ferramenta valiosa 
para profissionais de saúde em cenários de alta demanda.
"""




#### Texto educacional/narrativo

In [None]:
educational_text = """
A história da programação é fascinante e cheia de inovações. Começou na década de 1940 com os primeiros computadores mecânicos.

Ada Lovelace é frequentemente considerada a primeira programadora da história. Ela escreveu o primeiro algoritmo 
destinado a ser processado por uma máquina, especificamente para a Máquina Analítica de Charles Babbage.

Na década de 1950, surgiram as primeiras linguagens de programação de alto nível. FORTRAN foi desenvolvida 
pela IBM para cálculos científicos. Logo depois, COBOL emergiu para aplicações comerciais.

Os anos 1960 trouxeram ALGOL e posteriormente PASCAL, que influenciaram profundamente o design de linguagens modernas. 
A programação estruturada se tornou um paradigma dominante.

Na década de 1970, a linguagem C foi criada por Dennis Ritchie, revolucionando a programação de sistemas. 
Sua influência perdura até hoje em linguagens como C++, Java e Python.

A era da programação orientada a objetos começou com Smalltalk nos anos 1970, mas ganhou popularidade 
com C++ na década de 1980. Este paradigma mudou fundamentalmente como pensamos sobre software.

Hoje, temos centenas de linguagens de programação, cada uma projetada para diferentes propósitos: 
web development, mobile apps, machine learning, data science, e muito mais.
"""

#### Código exemplo para CodeChunker


In [None]:
code_text = """
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
\"\"\"
RAG Application with Chonkie Integration
Advanced document processing and retrieval system
\"\"\"

import os
import logging
from typing import List, Dict, Any, Optional
from dataclasses import dataclass
from pathlib import Path

# Third-party imports
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

# Chonkie imports
from chonkie import TokenChunker, SemanticChunker, RecursiveChunker

# Configure logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

@dataclass
class ChunkResult:
    \"\"\"Data class for chunk results\"\"\"
    text: str
    chunk_id: str
    token_count: int
    embedding: Optional[np.ndarray] = None
    metadata: Dict[str, Any] = None

class DocumentProcessor:
    \"\"\"Advanced document processing with multiple chunking strategies\"\"\"
    
    def __init__(self, model_name: str = "all-MiniLM-L6-v2"):
        self.model = SentenceTransformer(model_name)
        self.chunks_cache = {}
        logger.info(f"Initialized DocumentProcessor with model: {model_name}")
    
    def process_document(self, 
                        text: str, 
                        chunker_type: str = "recursive",
                        chunk_size: int = 512) -> List[ChunkResult]:
        \"\"\"Process document with specified chunker\"\"\"
        try:
            # Select chunker based on type
            chunker = self._get_chunker(chunker_type, chunk_size)
            
            # Generate chunks
            chunks = chunker(text)
            
            # Process each chunk
            results = []
            for i, chunk in enumerate(chunks):
                chunk_result = ChunkResult(
                    text=chunk.text,
                    chunk_id=f"{chunker_type}_{i}",
                    token_count=len(chunk.text.split()),
                    embedding=self.model.encode(chunk.text),
                    metadata={"chunker_type": chunker_type, "index": i}
                )
                results.append(chunk_result)
            
            logger.info(f"Processed {len(results)} chunks using {chunker_type}")
            return results
            
        except Exception as e:
            logger.error(f"Error processing document: {str(e)}")
            raise
    
    def _get_chunker(self, chunker_type: str, chunk_size: int):
        \"\"\"Factory method for chunkers\"\"\"
        chunkers = {
            "token": TokenChunker(chunk_size=chunk_size),
            "semantic": SemanticChunker(model_name="sentence-transformers/all-MiniLM-L6-v2"),
            "recursive": RecursiveChunker(chunk_size=chunk_size)
        }
        return chunkers.get(chunker_type, chunkers["recursive"])

def main():
    \"\"\"Main execution function\"\"\"
    processor = DocumentProcessor()
    
    # Example usage
    sample_text = "Your document text here..."
    chunks = processor.process_document(sample_text, "semantic")
    
    print(f"Generated {len(chunks)} chunks")
    for chunk in chunks[:3]:  # Show first 3 chunks
        print(f"Chunk ID: {chunk.chunk_id}  ")
        print(f"Tokens: {chunk.token_count}")
        print(f"Preview: {chunk.text[:100]}...")
        print("-" * 50)

if __name__ == "__main__":
    main()
"""

### 1. TokenChunker - Controle Preciso de Tokens


In [None]:
# Configuração do TokenChunker
token_chunker = TokenChunker(
    chunk_size=100,  # Limite de tokens por chunk
    chunk_overlap=10  # Overlap entre chunks
)

# Processamento
token_chunks = token_chunker(medical_text)

# Análise dos resultados
print(f"✅ Chunks gerados: {len(token_chunks)}")
print(f"📊 Média de tokens por chunk: {np.mean([chunk.token_count for chunk in token_chunks]):.1f}")
print(f"🔄 Overlap configurado: {token_chunker.chunk_overlap} tokens")

# Visualização dos primeiros chunks
for i, chunk in enumerate(token_chunks[:3]):
    print(f"\n📄 Chunk {i+1} (Tokens: {chunk.token_count}):")
    print(f"├─ Texto: {chunk.text[:100]}...")
    print(f"└─ ID: {chunk.chunk_id}")

# Caso de uso: Preparação para API OpenAI
print(f"\n🎯 Uso Prático:")
print(f"Todos os chunks respeitam o limite de {token_chunker.chunk_size} tokens")
print(f"Perfeito para APIs com limite de contexto")


### 2. SentenceChunker - Preservação Semântica Natural


In [None]:
# SentenceChunker - Preserva integridade semântica
print("📝 SentenceChunker Implementation")
print("=" * 50)

# Configuração do SentenceChunker
sentence_chunker = SentenceChunker(
    sentences_per_chunk=3,  # Número de sentenças por chunk
    chunk_overlap=1  # Sobreposição de sentenças
)

# Processamento
sentence_chunks = sentence_chunker(educational_text)

# Análise dos resultados
print(f"✅ Chunks gerados: {len(sentence_chunks)}")
print(f"📊 Média de sentenças por chunk: {np.mean([len(chunk.text.split('.')) for chunk in sentence_chunks]):.1f}")

# Visualização dos primeiros chunks
for i, chunk in enumerate(sentence_chunks[:3]):
    sentences_count = len([s for s in chunk.text.split('.') if s.strip()])
    print(f"\n📄 Chunk {i+1} (Sentenças: {sentences_count}):")
    print(f"├─ Texto: {chunk.text[:120]}...")
    print(f"└─ Preserva contexto semântico completo")

# Comparação com TokenChunker
print(f"\n🔍 Comparação:")
print(f"├─ TokenChunker: Corta no meio das sentenças")
print(f"└─ SentenceChunker: Preserva integridade semântica")


### 3. RecursiveChunker - Estrutura Hierárquica Inteligente


In [None]:
# RecursiveChunker - Respeita estrutura hierárquica
print("🌳 RecursiveChunker Implementation")
print("=" * 50)

# Configuração do RecursiveChunker
recursive_chunker = RecursiveChunker(
    chunk_size=200,  # Tamanho máximo do chunk
    chunk_overlap=20,  # Overlap entre chunks
    separators=["\n\n", "\n", ". ", " ", ""]  # Hierarquia de separadores
)

# Processamento
recursive_chunks = recursive_chunker(medical_text)

# Análise dos resultados
print(f"✅ Chunks gerados: {len(recursive_chunks)}")
print(f"📊 Média de caracteres por chunk: {np.mean([len(chunk.text) for chunk in recursive_chunks]):.1f}")

# Visualização dos primeiros chunks
for i, chunk in enumerate(recursive_chunks[:3]):
    print(f"\n📄 Chunk {i+1} (Caracteres: {len(chunk.text)}):")
    print(f"├─ Texto: {chunk.text[:100]}...")
    # Verificar se mantém estrutura
    has_headers = any(line.startswith("#") for line in chunk.text.split("\n"))
    print(f"└─ Mantém headers: {'✅' if has_headers else '❌'}")

# Análise da estrutura preservada
print(f"\n🔍 Estrutura Preservada:")
structure_analysis = []
for chunk in recursive_chunks:
    has_title = any(line.startswith("##") for line in chunk.text.split("\n"))
    has_subtitle = any(line.startswith("###") for line in chunk.text.split("\n"))
    structure_analysis.append({"title": has_title, "subtitle": has_subtitle})

titles_preserved = sum(1 for s in structure_analysis if s["title"])
subtitles_preserved = sum(1 for s in structure_analysis if s["subtitle"])

print(f"├─ Chunks com títulos principais: {titles_preserved}")
print(f"└─ Chunks com subtítulos: {subtitles_preserved}")
print(f"📈 Ideal para documentos estruturados como papers acadêmicos")


### 4. CodeChunker - Processamento Inteligente de Código


In [None]:
# CodeChunker - Especializado em código fonte
print("💻 CodeChunker Implementation")
print("=" * 50)

# Configuração do CodeChunker
code_chunker = CodeChunker(
    chunk_size=500,  # Tamanho máximo do chunk
    chunk_overlap=50,  # Overlap entre chunks
    language="python"  # Linguagem específica
)

# Processamento
code_chunks = code_chunker(code_text)

# Análise dos resultados
print(f"✅ Chunks gerados: {len(code_chunks)}")
print(f"📊 Média de caracteres por chunk: {np.mean([len(chunk.text) for chunk in code_chunks]):.1f}")

# Visualização dos primeiros chunks
for i, chunk in enumerate(code_chunks[:3]):
    lines = chunk.text.split('\n')
    print(f"\n📄 Chunk {i+1} (Linhas: {len(lines)}):")
    
    # Análise do conteúdo
    has_imports = any('import' in line for line in lines)
    has_functions = any('def ' in line for line in lines)
    has_classes = any('class ' in line for line in lines)
    has_comments = any(line.strip().startswith('#') for line in lines)
    
    print(f"├─ Imports: {'✅' if has_imports else '❌'}")
    print(f"├─ Funções: {'✅' if has_functions else '❌'}")
    print(f"├─ Classes: {'✅' if has_classes else '❌'}")
    print(f"├─ Comentários: {'✅' if has_comments else '❌'}")
    print(f"└─ Preview: {chunk.text[:80]}...")

# Análise da preservação sintática
print(f"\n🔍 Análise Sintática:")
syntactic_elements = {
    'imports': 0,
    'functions': 0,
    'classes': 0,
    'docstrings': 0
}

for chunk in code_chunks:
    lines = chunk.text.split('\n')
    syntactic_elements['imports'] += sum(1 for line in lines if 'import' in line)
    syntactic_elements['functions'] += sum(1 for line in lines if 'def ' in line.strip())
    syntactic_elements['classes'] += sum(1 for line in lines if 'class ' in line.strip())
    syntactic_elements['docstrings'] += sum(1 for line in lines if '\"\"\"' in line)

for element, count in syntactic_elements.items():
    print(f"├─ {element.title()}: {count}")

print(f"└─ 🎯 Preserva estrutura sintática do código")


## 🔧 **Troubleshooting e Limitações** <a id="troubleshooting"></a>

### Problemas Comuns e Soluções

#### ⚠️ **Chunkers Avançados (Semantic, SDPM, Late, Neural)**
```python
# Problema: Requer modelos de embedding ou redes neurais
# Solução: Instalar dependências apropriadas

# Para SemanticChunker
# uv add sentence-transformers

# Para LateChunker
# uv add transformers torch

# Para NeuralChunker
# uv add torch transformers datasets
```

#### 🐛 **Problemas de Performance**
- **TokenChunker**: Pode cortar no meio de palavras importantes
- **SemanticChunker**: Lento para documentos grandes
- **LateChunker**: Requer muita memória RAM

#### 📊 **Limitações por Chunker**

| Chunker | Limitação Principal | Solução |
|---------|---------------------|---------|
| **TokenChunker** | Quebra no meio de sentenças | Use com overlap adequado |
| **SentenceChunker** | Sentenças muito longas | Configure max_chunk_size |
| **RecursiveChunker** | Dependente de separadores | Customize separators |
| **SemanticChunker** | Lento para textos grandes | Use em documentos < 50KB |
| **CodeChunker** | Específico para linguagens suportadas | Verifique support languages |



## 📚 **Referências e Recursos**

### Documentação Oficial
- **Website**: [chonkie.ai](https://chonkie.ai)
- **Documentação**: [docs.chonkie.ai](https://docs.chonkie.ai)
- **GitHub**: [github.com/chonkie-ai/chonkie](https://github.com/chonkie-ai/chonkie)
- **PyPI**: [pypi.org/project/chonkie](https://pypi.org/project/chonkie)

### Recursos Adicionais
- **RAG Best Practices**: [Retrieval-Augmented Generation Guide](https://example.com/rag-guide)
- **Embedding Models**: [Sentence Transformers](https://www.sbert.net/)
- **Tokenization**: [Hugging Face Tokenizers](https://huggingface.co/docs/tokenizers/)

---

João Gabriel Lima  