# Smart Chunking Strategies - Ungraph

Este notebook demuestra el uso de `smart_chunk()` para seleccionar autom√°ticamente la mejor estrategia de chunking.

## Objetivos

1. **Smart chunking autom√°tico** - Selecci√≥n autom√°tica de estrategia
2. **Comparaci√≥n de estrategias** - Fixed-size, lexical, semantic, hierarchical
3. **An√°lisis de recomendaciones** - Entender por qu√© se selecciona cada estrategia
4. **Selecci√≥n manual** - Forzar una estrategia preferida

**Referencias:**
- [Smart Chunking Example](./5.%20Smart%20Chunking%20Example.md)


In [None]:
def add_src_to_path(path_folder: str):
    import sys
    from pathlib import Path
    base_path = Path().resolve()
    for parent in [base_path] + list(base_path.parents):
        candidate = parent / path_folder
        if candidate.exists():
            parent_dir = candidate.parent
            if str(parent_dir) not in sys.path:
                sys.path.insert(0, str(parent_dir))
            if str(candidate) not in sys.path:
                sys.path.append(str(candidate))
            return

add_src_to_path(path_folder="src")
add_src_to_path(path_folder="src/data")

try:
    import ungraph
except ImportError:
    import src
    ungraph = src

from infrastructure.services.langchain_chunking_service import LangChainChunkingService
from domain.entities.document import Document

print(f"üì¶ Ungraph version: {ungraph.__version__}")


## Parte 1: Smart Chunking Autom√°tico

Usemos `smart_chunk()` para seleccionar autom√°ticamente la mejor estrategia.


In [None]:
# Crear documento de ejemplo
content = """# Machine Learning Fundamentals

## Introduction
Machine learning is a subset of artificial intelligence that enables systems to learn from data.

## Supervised Learning
Supervised learning uses labeled data to train models. Examples include classification and regression.

## Unsupervised Learning
Unsupervised learning finds patterns in unlabeled data. Clustering is a common technique.
"""

doc = Document.create(content=content, filename="ml_basics.md", file_type="markdown")
chunking_service = LangChainChunkingService()

# Smart chunking autom√°tico
chunks, metadata = chunking_service.smart_chunk(doc)

print(f"‚úÖ Estrategia seleccionada: {metadata.get('strategy')}")
print(f"üìä Chunks generados: {metadata.get('num_chunks')}")
print(f"üìè Chunk size: {metadata.get('chunk_size')}")
print(f"üîÑ Overlap: {metadata.get('chunk_overlap')}")
print(f"\nüìù Primeros 3 chunks:")
for i, chunk in enumerate(chunks[:3], 1):
    print(f"\n{i}. {chunk.page_content[:150]}...")


## Parte 2: Comparaci√≥n de Estrategias

Comparemos diferentes estrategias de chunking con el mismo documento.


In [None]:
# Comparar estrategias
strategies = ["fixed-size", "lexical", "semantic", "hierarchical"]

print("üîç Comparando estrategias de chunking:\n")
for strategy in strategies:
    chunks, metadata = chunking_service.smart_chunk(doc, preferred_strategy=strategy)
    print(f"{strategy.upper()}:")
    print(f"  Chunks: {len(chunks)}")
    print(f"  Chunk size promedio: {sum(len(c.page_content) for c in chunks) / len(chunks):.0f} chars")
    print()


## Resumen

### Estrategias Disponibles

- **fixed-size**: Chunks de tama√±o fijo (r√°pido, simple)
- **lexical**: Respeta l√≠mites de palabras/p√°rrafos (mejor para texto estructurado)
- **semantic**: Agrupa contenido sem√°nticamente relacionado (mejor calidad)
- **hierarchical**: Estructura jer√°rquica (mejor para documentos con secciones)

### Mejores Pr√°cticas

1. Usar `smart_chunk()` para selecci√≥n autom√°tica
2. Comparar estrategias para encontrar la mejor para tu caso
3. Ajustar `chunk_size` y `chunk_overlap` seg√∫n necesidad
