# üî™ SEGMENTA√á√ÉO EM CHUNKS - Etapa 4/6

## üìã O que este notebook faz

Este notebook **divide documentos em peda√ßos menores** (chunks) otimizados para embeddings:

- üìñ **L√™ documentos** processados em `pipeline-data/processed/`
- ‚úÇÔ∏è **Segmenta texto** usando `RecursiveCharacterTextSplitter`
- üîó **Aplica overlapping** (100 chars) para manter contexto entre chunks
- üè∑Ô∏è **Adiciona metadados** (documento origem, √≠ndice, tamanho)
- üíæ **Salva em JSONL** para processamento eficiente

## ‚öôÔ∏è Configura√ß√£o de chunking

- **Tamanho**: 500 caracteres por chunk
- **Overlap**: 100 caracteres entre chunks adjacentes  
- **Separadores**: Prioriza quebras sem√¢nticas (`\n\n`, `\n`, `. `, ` `)

## üìä Output esperado

~322 chunks salvos em `pipeline-data/chunks/chunks.jsonl` com m√©dia de 350 caracteres cada.

---

In [1]:
import os
from pathlib import Path
from langchain_text_splitters import RecursiveCharacterTextSplitter
import json

# Configura√ß√£o
CHUNK_SIZE = int(os.getenv("CHUNK_SIZE", "500"))
CHUNK_OVERLAP = int(os.getenv("CHUNK_OVERLAP", "100"))

# Diret√≥rios
processed_dir = Path("pipeline-data/processed")
chunks_dir = Path("pipeline-data/chunks")
chunks_dir.mkdir(parents=True, exist_ok=True)

# Limpar diret√≥rio chunks recursivamente
for f in chunks_dir.rglob("*"):
    if f.is_file():
        f.unlink()

print(f"Chunk size: {CHUNK_SIZE} tokens")
print(f"Overlap: {CHUNK_OVERLAP} tokens")

# Listar documentos processados recursivamente com caminhos relativos
documents = [str(doc.relative_to(processed_dir)) for doc in processed_dir.rglob("*.md")]

print(f"Documentos encontrados: {len(documents)}")

for i, doc in enumerate(documents[:10]):
    print(f"  {doc}")

if len(documents) > 10:
    print(f"  ... e mais {len(documents) - 10} documentos")

Chunk size: 500 tokens
Overlap: 100 tokens
Documentos encontrados: 31
  30-Aprovados/Mapas/Vis√£o Geral do Self Checkout.md
  30-Aprovados/Mapas/Vis√£o Geral do NIC.md
  30-Aprovados/Mapas/Processa Sistemas.md
  30-Aprovados/T√≥picos/Cancelamento de cupom.md
  30-Aprovados/T√≥picos/Solicita√ß√£o de ajuda.md
  30-Aprovados/T√≥picos/Hist√≥rico de atualiza√ß√µes Self Checkout.md
  30-Aprovados/T√≥picos/Funcionalidade do bloqueio.md
  30-Aprovados/T√≥picos/Aplica√ß√£o de desconto por item.md
  30-Aprovados/T√≥picos/Prop√≥sito do NIC.md
  30-Aprovados/T√≥picos/Reimpress√£o do √∫ltimo cupom.md
  ... e mais 21 documentos


import os
from pathlib import Path
from langchain_text_splitters import RecursiveCharacterTextSplitter
import json
import time
from datetime import datetime

# Marcar in√≠cio da execu√ß√£o
stage_start = time.time()
start_timestamp = datetime.now().isoformat() + "Z"

# Configura√ß√£o
CHUNK_SIZE = int(os.getenv("CHUNK_SIZE", "500"))
CHUNK_OVERLAP = int(os.getenv("CHUNK_OVERLAP", "100"))

# Diret√≥rios
processed_dir = Path("pipeline-data/processed")
chunks_dir = Path("pipeline-data/chunks")
chunks_dir.mkdir(parents=True, exist_ok=True)

# Limpar diret√≥rio chunks recursivamente
for f in chunks_dir.rglob("*"):
    if f.is_file():
        f.unlink()

print(f"Chunk size: {CHUNK_SIZE} tokens")
print(f"Overlap: {CHUNK_OVERLAP} tokens")

# Listar documentos processados recursivamente com caminhos relativos
documents = [str(doc.relative_to(processed_dir)) for doc in processed_dir.rglob("*.md")]

print(f"Documentos encontrados: {len(documents)}")

for i, doc in enumerate(documents[:10]):
    print(f"  {doc}")

if len(documents) > 10:
    print(f"  ... e mais {len(documents) - 10} documentos")

In [2]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    length_function=len,
    separators=["\n\n", "\n", ". ", " ", ""]
)

print(f"‚úÖ Text splitter configurado:")
print(f"  Chunk size: {CHUNK_SIZE}")
print(f"  Overlap: {CHUNK_OVERLAP}")
print(f"  Separadores: {text_splitter._separators}")

‚úÖ Text splitter configurado:
  Chunk size: 500
  Overlap: 100
  Separadores: ['\n\n', '\n', '. ', ' ', '']


## üî™ Segmenta√ß√£o de Documentos

In [3]:
# Processar cada arquivo
all_chunks = []
chunk_id = 0

for text_file in documents:
    try:
        # Construir caminho completo para leitura
        full_path = processed_dir / text_file
        
        # Ler texto
        with open(full_path, "r", encoding="utf-8") as f:
            text_content = f.read()
        
        if not text_content.strip():
            print(f"  ‚ö†Ô∏è Arquivo vazio: {Path(text_file).name}")
            continue
        
        # Dividir em chunks
        chunks = text_splitter.split_text(text_content)
        
        # Processar cada chunk
        for i, chunk_text in enumerate(chunks):
            chunk_data = {
                "chunk_id": chunk_id,
                "source_document": text_file.replace(".md", ""),  # Usa caminho relativo sem extens√£o
                "chunk_index": i,
                "text": chunk_text.strip(),
                "char_count": len(chunk_text)
            }
            
            # Adicionar ao array com estrutura mais clara
            all_chunks.append(chunk_data)
            
            chunk_id += 1
        
        print(f"  ‚úÖ {len(chunks)} chunks criados para: {text_file}")
        
    except Exception as e:
        print(f"  ‚ùå Erro: {str(e)}")

print(f"\nüìä Total de chunks: {len(all_chunks)}")

  ‚úÖ 51 chunks criados para: 30-Aprovados/Mapas/Vis√£o Geral do Self Checkout.md
  ‚úÖ 15 chunks criados para: 30-Aprovados/Mapas/Vis√£o Geral do NIC.md
  ‚úÖ 13 chunks criados para: 30-Aprovados/Mapas/Processa Sistemas.md
  ‚úÖ 7 chunks criados para: 30-Aprovados/T√≥picos/Cancelamento de cupom.md
  ‚úÖ 6 chunks criados para: 30-Aprovados/T√≥picos/Solicita√ß√£o de ajuda.md
  ‚úÖ 5 chunks criados para: 30-Aprovados/T√≥picos/Hist√≥rico de atualiza√ß√µes Self Checkout.md
  ‚úÖ 11 chunks criados para: 30-Aprovados/T√≥picos/Funcionalidade do bloqueio.md
  ‚úÖ 7 chunks criados para: 30-Aprovados/T√≥picos/Aplica√ß√£o de desconto por item.md
  ‚úÖ 12 chunks criados para: 30-Aprovados/T√≥picos/Prop√≥sito do NIC.md
  ‚úÖ 4 chunks criados para: 30-Aprovados/T√≥picos/Reimpress√£o do √∫ltimo cupom.md
  ‚úÖ 8 chunks criados para: 30-Aprovados/T√≥picos/Fun√ß√£o do Chat NIC.md
  ‚úÖ 9 chunks criados para: 30-Aprovados/T√≥picos/Acesso ao menu do fiscal.md
  ‚úÖ 10 chunks criados para: 30-Aprovados/T√≥

## üíæ Armazenamento e Estat√≠sticas

In [4]:
# Salvar todos os chunks em um √∫nico arquivo JSONL
jsonl_file = chunks_dir / "chunks.jsonl"
with open(jsonl_file, "w", encoding="utf-8") as f:
    for chunk in all_chunks:
        f.write(json.dumps(chunk, ensure_ascii=False) + "\n")

print(f"\nüíæ Chunks salvos em: {jsonl_file}")
print(f"üìä Total de chunks no arquivo: {len(all_chunks)}")

# Estat√≠sticas
if all_chunks:
    avg_chars = sum(chunk["char_count"] for chunk in all_chunks) / len(all_chunks)
    max_chars = max(chunk["char_count"] for chunk in all_chunks)
    min_chars = min(chunk["char_count"] for chunk in all_chunks)
    
    print(f"\nüìà Estat√≠sticas:")
    print(f"  Total chunks: {len(all_chunks)}")
    print(f"  Tamanho m√©dio: {avg_chars:.0f} caracteres")
    print(f"  Tamanho m√≠nimo: {min_chars} caracteres")
    print(f"  Tamanho m√°ximo: {max_chars} caracteres")
    
    # Mostrar distribui√ß√£o por arquivo
    from collections import Counter
    
    print(f"\nüìÅ Distribui√ß√£o de chunks por arquivo:")
    # Usar source_document que j√° est√° no chunk
    file_counter = Counter(chunk["source_document"] for chunk in all_chunks)
    
    # Mostrar top 10 arquivos com mais chunks
    for file, count in file_counter.most_common(10):
        print(f"  {file}: {count} chunks")
    
    if len(file_counter) > 10:
        print(f"  ... e mais {len(file_counter) - 10} arquivos")


üíæ Chunks salvos em: pipeline-data/chunks/chunks.jsonl
üìä Total de chunks no arquivo: 322

üìà Estat√≠sticas:
  Total chunks: 322
  Tamanho m√©dio: 350 caracteres
  Tamanho m√≠nimo: 13 caracteres
  Tamanho m√°ximo: 500 caracteres

üìÅ Distribui√ß√£o de chunks por arquivo:
  30-Aprovados/Mapas/Vis√£o Geral do Self Checkout: 51 chunks
  30-Aprovados/T√≥picos/Componentes principais do sistema: 19 chunks
  30-Aprovados/T√≥picos/Pr√©-requisitos t√©cnicos: 17 chunks
  30-Aprovados/Mapas/Vis√£o Geral do NIC: 15 chunks
  30-Aprovados/T√≥picos/Padr√µes de Documenta√ß√£o do NIC: 15 chunks
  30-Aprovados/Mapas/Processa Sistemas: 13 chunks
  30-Aprovados/T√≥picos/Prop√≥sito do NIC: 12 chunks
  30-Aprovados/T√≥picos/Finalidade e vis√£o do NIC: 12 chunks
  30-Aprovados/T√≥picos/Funcionalidade do bloqueio: 11 chunks
  30-Aprovados/T√≥picos/Cronograma e marcos do projeto: 10 chunks
  ... e mais 21 arquivos


## üìä Relat√≥rio de Execu√ß√£o

In [5]:
import time
from datetime import datetime

# Se n√£o tiver stage_start, calcular agora
if 'stage_start' not in locals():
    stage_start = time.time()
    start_timestamp = datetime.now().isoformat() + "Z"

# Calcular dura√ß√£o
stage_duration = time.time() - stage_start

# Carregar relat√≥rio existente
report_path = Path("pipeline-data/report.json")
if report_path.exists():
    with open(report_path, "r") as f:
        report = json.load(f)
else:
    report = {"stages": [], "context": {}, "summary": {}}

# Atualizar contexto com configura√ß√µes de chunking
report["context"].update({
    "chunk_size": CHUNK_SIZE,
    "chunk_overlap": CHUNK_OVERLAP
})

# Adicionar informa√ß√µes desta etapa
stage_report = {
    "stage": 4,
    "name": "Segmenta√ß√£o em Chunks",
    "status": "SUCCESS" if len(all_chunks) > 0 else "FAILED",
    "start_time": start_timestamp if 'start_timestamp' in locals() else datetime.now().isoformat() + "Z",
    "duration_seconds": round(stage_duration, 2),
    "results": {
        "documents_processed": len(documents),
        "total_chunks": len(all_chunks),
        "avg_chunk_size": round(avg_chars) if all_chunks else 0,
        "min_chunk_size": min_chars if all_chunks else 0,
        "max_chunk_size": max_chars if all_chunks else 0
    }
}

# Adicionar ou atualizar stage no relat√≥rio
stages_updated = False
for i, stage in enumerate(report["stages"]):
    if stage["stage"] == 4:
        report["stages"][i] = stage_report
        stages_updated = True
        break

if not stages_updated:
    report["stages"].append(stage_report)

# Atualizar timestamp
report["summary"]["last_update"] = datetime.now().isoformat() + "Z"

# Salvar relat√≥rio atualizado
with open(report_path, "w") as f:
    json.dump(report, f, indent=2, ensure_ascii=False)

print(f"\nüìä Relat√≥rio atualizado: {report_path}")
print(f"‚è±Ô∏è Dura√ß√£o da etapa: {stage_duration:.2f}s")


üìä Relat√≥rio atualizado: pipeline-data/report.json
‚è±Ô∏è Dura√ß√£o da etapa: 0.00s
