# üéµ SMT (Sheet Music Transformer) - Treinamento Otimizado para Kaggle

Este notebook est√° otimizado para treinar o modelo SMT no Kaggle com:
- **2x GPUs Tesla P100/T4**
- **30GB RAM**
- **Otimiza√ß√µes de mem√≥ria e performance**

## üìã Configura√ß√µes Aplicadas

‚úÖ **Otimiza√ß√µes de Performance:**
- `num_proc=1` (evita overhead de multiprocessing)
- `num_workers=4` (balanceado para 2 GPUs)
- `batch_size=2` com gradient accumulation (batch efetivo = 16)
- Cache habilitado nos datasets
- Mixed precision training (16-bit)
- DDP Strategy para multi-GPU

‚úÖ **Otimiza√ß√µes de Mem√≥ria:**
- `reduce_ratio=0.5` (reduz tamanho das imagens)
- `writer_batch_size=100` (reduzido de 500)
- Garbage collection autom√°tico
- Gradient clipping habilitado

## üöÄ Vamos come√ßar!

## 1Ô∏è‚É£ Instala√ß√£o de Depend√™ncias

Primeiro, vamos instalar todas as bibliotecas necess√°rias.

In [None]:
%%time
# Instalar depend√™ncias principais
!pip install -q fire gin_config lightning loguru musicdiff numpy opencv-python-headless Pillow
!pip install -q rich scikit-image timm torch torchinfo torchvision transformers datasets

# Instalar depend√™ncias para gera√ß√£o sint√©tica
!pip install -q verovio cairosvg names wonderwords

# Verificar GPUs dispon√≠veis
import torch
print(f"üî• PyTorch version: {torch.__version__}")
print(f"üéÆ CUDA available: {torch.cuda.is_available()}")
print(f"üéÆ Number of GPUs: {torch.cuda.device_count()}")
if torch.cuda.is_available():
    for i in range(torch.cuda.device_count()):
        print(f"   GPU {i}: {torch.cuda.get_device_name(i)}")
        print(f"   Memory: {torch.cuda.get_device_properties(i).total_memory / 1024**3:.2f} GB")

## 2Ô∏è‚É£ Clonar o Reposit√≥rio e Preparar Ambiente

Vamos clonar o c√≥digo do SMT e configurar o ambiente.

In [None]:
# Clone o reposit√≥rio e fa√ßa pull das √∫ltimas altera√ß√µes
!git clone https://github.com/gasbiru/SMT.git
%cd SMT

# Atualizar com √∫ltimas altera√ß√µes do remoto
!git pull origin main

# Criar diret√≥rios necess√°rios
!mkdir -p /kaggle/working/checkpoints
!mkdir -p vocab

# Verificar estrutura
!ls -la

## 3Ô∏è‚É£ Configura√ß√£o Otimizada para Kaggle

Vamos criar a configura√ß√£o JSON otimizada para o ambiente Kaggle.

In [None]:
import json

# Configura√ß√£o otimizada para Kaggle com 2 GPUs e 30GB RAM
kaggle_config = {
    "data": {
        "data_path": "antoniorv6/full-page-grandstaff",
        "batch_size": 2,  # Batch por GPU (total = 2*2 = 4)
        "vocab_name": "FP_GrandStaff_BeKern",
        "num_workers": 4,  # Otimizado para 2 GPUs
        "krn_format": "bekern",
        "reduce_ratio": 0.5  # Reduz imagens pela metade para economizar mem√≥ria
    },
    "checkpoint": {
        "filename": "SMT-Kaggle-best",
        "monitor": "val_SER",
        "dirpath": "/kaggle/working/checkpoints/",
        "mode": "min",
        "save_top_k": 2,
        "verbose": True
    }
}

# Salvar configura√ß√£o
with open('config/FP-GrandStaff/kaggle_config.json', 'w') as f:
    json.dump(kaggle_config, f, indent=2)

print("‚úÖ Configura√ß√£o criada:")
print(json.dumps(kaggle_config, indent=2))

## 4Ô∏è‚É£ Monitoramento de Recursos

Vamos verificar o uso de mem√≥ria antes de come√ßar o treinamento.

In [None]:
import psutil
import gc

# Verificar RAM dispon√≠vel
ram = psutil.virtual_memory()
print(f"üíæ RAM Total: {ram.total / 1024**3:.2f} GB")
print(f"üíæ RAM Dispon√≠vel: {ram.available / 1024**3:.2f} GB")
print(f"üíæ RAM Usada: {ram.percent}%")

# Limpar mem√≥ria GPU
if torch.cuda.is_available():
    torch.cuda.empty_cache()
    gc.collect()
    
    for i in range(torch.cuda.device_count()):
        print(f"\nüéÆ GPU {i}: {torch.cuda.get_device_name(i)}")
        print(f"   Mem√≥ria Alocada: {torch.cuda.memory_allocated(i) / 1024**3:.2f} GB")
        print(f"   Mem√≥ria Reservada: {torch.cuda.memory_reserved(i) / 1024**3:.2f} GB")
        print(f"   Mem√≥ria Livre: {(torch.cuda.get_device_properties(i).total_memory - torch.cuda.memory_allocated(i)) / 1024**3:.2f} GB")

## 5Ô∏è‚É£ Teste R√°pido de Carregamento de Dados

Antes de treinar, vamos testar se o dataset carrega corretamente com as otimiza√ß√µes.

In [None]:
%%time
import datasets
from data import prepare_fp_data

# Teste de carregamento com otimiza√ß√µes
print("üì• Testando carregamento do dataset...")
test_ds = datasets.load_dataset(
    "antoniorv6/full-page-grandstaff", 
    split="train[:10]",  # Apenas 10 amostras para teste
    trust_remote_code=False
)

print(f"‚úÖ Dataset carregado: {len(test_ds)} amostras")
print(f"üìä Colunas: {test_ds.column_names}")

# Testar processamento com num_proc=1
print("\nüîÑ Testando processamento com num_proc=1...")
processed_ds = test_ds.map(
    prepare_fp_data,
    fn_kwargs={"reduce_ratio": 0.5, "krn_format": "bekern"},
    num_proc=1,  # Otimizado!
    writer_batch_size=100,
    load_from_cache_file=True
)

print(f"‚úÖ Processamento conclu√≠do!")
print(f"üìè Exemplo - Tamanho imagem: {processed_ds[0]['image'].shape}")
print(f"üìù Exemplo - Tamanho transcri√ß√£o: {len(processed_ds[0]['transcription'])} tokens")

# Limpar mem√≥ria
del test_ds, processed_ds
gc.collect()

## 6Ô∏è‚É£ Iniciar Treinamento (Op√ß√£o 1: Script Otimizado)

Use o script otimizado `train_kaggle.py` que j√° inclui todas as configura√ß√µes para 2 GPUs.

In [None]:
# Treinar usando o script otimizado
# use_wandb=False para n√£o usar Weights & Biases (economiza tempo)
# use_wandb=True se voc√™ tiver uma conta WandB configurada

!python train_kaggle.py \
    --config_path="config/FP-GrandStaff/kaggle_config.json" \
    --use_wandb=False \
    --max_epochs=50

## 7Ô∏è‚É£ Iniciar Treinamento (Op√ß√£o 2: C√≥digo Inline)

Alternativamente, voc√™ pode treinar diretamente no notebook com controle total.

In [None]:
import json
import torch
import gc
from data import SyntheticCLGrandStaffDataset
from smt_trainer import SMT_Trainer
from ExperimentConfig import experiment_config_from_dict
from lightning.pytorch import Trainer
from lightning.pytorch.callbacks import ModelCheckpoint, EarlyStopping
from lightning.pytorch.strategies import DDPStrategy

# Configura√ß√µes
torch.set_float32_matmul_precision('high')
torch.cuda.empty_cache()
gc.collect()

# Carregar configura√ß√£o
with open('config/FP-GrandStaff/kaggle_config.json', "r") as f:
    config = experiment_config_from_dict(json.load(f))

print("üöÄ Iniciando treinamento otimizado para Kaggle...")
print(f"üìä Batch size: {config.data.batch_size} (efetivo: {config.data.batch_size * 2 * 4} com 2 GPUs e grad accum)")
print(f"üë∑ Workers: {config.data.num_workers}")
print(f"üìê Reduce ratio: {config.data.reduce_ratio}")

# Carregar dados
print("\nüì• Carregando dataset...")
datamodule = SyntheticCLGrandStaffDataset(config=config.data, skip_steps=0)

# Criar modelo
max_height = datamodule.get_max_height()
max_width = datamodule.get_max_width()
max_len = datamodule.get_max_length()

print(f"\nüìè Dimens√µes do modelo:")
print(f"   Height: {max_height}, Width: {max_width}, Length: {max_len}")

model_wrapper = SMT_Trainer(
    maxh=int(max_height), maxw=int(max_width), maxlen=int(max_len),
    out_categories=len(datamodule.train_set.w2i), 
    padding_token=datamodule.train_set.w2i["<pad>"],
    in_channels=1, w2i=datamodule.train_set.w2i, i2w=datamodule.train_set.i2w,
    d_model=256, dim_ff=256, num_dec_layers=8
)

# Callbacks
early_stopping = EarlyStopping(
    monitor="val_SER", min_delta=0.01, patience=10, mode="min", verbose=True
)

checkpointer = ModelCheckpoint(
    dirpath=config.checkpoint.dirpath,
    filename=config.checkpoint.filename,
    monitor=config.checkpoint.monitor,
    mode=config.checkpoint.mode,
    save_top_k=config.checkpoint.save_top_k,
    verbose=True,
    save_last=True
)

# Estrat√©gia multi-GPU
strategy = DDPStrategy(
    find_unused_parameters=False,
    gradient_as_bucket_view=True
)

# Trainer otimizado
trainer = Trainer(
    max_epochs=50,
    check_val_every_n_epoch=2,
    callbacks=[checkpointer, early_stopping],
    precision='16-mixed',
    accelerator='gpu',
    devices=2,  # 2 GPUs
    strategy=strategy,
    accumulate_grad_batches=4,  # Batch efetivo = 2*2*4 = 16
    gradient_clip_val=1.0,
    log_every_n_steps=50,
    enable_progress_bar=True
)

print(f"\nüéÆ Configura√ß√£o do Trainer:")
print(f"   GPUs: {trainer.num_devices}")
print(f"   Batch efetivo: {config.data.batch_size * trainer.num_devices * trainer.accumulate_grad_batches}")
print(f"   Precis√£o: {trainer.precision}")

# Treinar!
print("\nüöÄ Iniciando treinamento...\n")
trainer.fit(model_wrapper, datamodule=datamodule)

## 8Ô∏è‚É£ Avaliar Modelo

Ap√≥s o treinamento, teste o melhor modelo.

In [None]:
# Testar o melhor modelo
if checkpointer.best_model_path:
    print(f"üèÜ Carregando melhor modelo: {checkpointer.best_model_path}")
    best_model = SMT_Trainer.load_from_checkpoint(checkpointer.best_model_path)
    
    print("\nüß™ Testando modelo...")
    test_results = trainer.test(best_model, datamodule=datamodule)
    
    print("\n‚úÖ Resultados do teste:")
    for key, value in test_results[0].items():
        print(f"   {key}: {value:.4f}")
else:
    print("‚ö†Ô∏è Nenhum checkpoint encontrado")

## 9Ô∏è‚É£ Salvar e Baixar Checkpoints

Salve os checkpoints para uso posterior.

In [None]:
# Listar checkpoints salvos
!ls -lh /kaggle/working/checkpoints/

# Comprimir checkpoints para download
!tar -czf checkpoints.tar.gz /kaggle/working/checkpoints/

print("‚úÖ Checkpoints comprimidos em checkpoints.tar.gz")
print("üì• Voc√™ pode baixar o arquivo pela aba de Output do Kaggle")

## üîü Dicas e Troubleshooting

### üí° Dicas para Otimiza√ß√£o

1. **Se ficar sem mem√≥ria:**
   - Reduza `batch_size` de 2 para 1
   - Aumente `reduce_ratio` para 0.3 (imagens menores)
   - Reduza `accumulate_grad_batches` de 4 para 2

2. **Se o Map ainda travar:**
   - J√° est√° com `num_proc=1` (otimizado)
   - Cache habilitado com `load_from_cache_file=True`
   - Se travar novamente, tente limpar o cache: `!rm -rf ~/.cache/huggingface/datasets/`

3. **Para acelerar o treinamento:**
   - Use `check_val_every_n_epoch=5` (validar menos frequentemente)
   - Aumente `log_every_n_steps=100`
   - Desabilite checkpoints intermedi√°rios: `save_top_k=1`

4. **Monitoramento:**
   - Use `!nvidia-smi` para ver uso de GPU
   - Use `!htop` para ver uso de CPU/RAM

### ‚ö†Ô∏è Problemas Comuns

**Problema**: Map freezando em 9%
- **Solu√ß√£o**: J√° aplicada! `num_proc=1` e cache habilitado

**Problema**: Out of Memory (OOM)
- **Solu√ß√£o**: Reduza batch_size ou reduce_ratio

**Problema**: GPUs n√£o sendo usadas
- **Solu√ß√£o**: Verifique `devices=2` e `accelerator='gpu'` no Trainer

**Problema**: Treinamento muito lento
- **Solu√ß√£o**: Verifique se `precision='16-mixed'` est√° habilitado

## üìä Resumo das Otimiza√ß√µes Aplicadas

### ‚úÖ Melhorias no C√≥digo Base

| Arquivo | Mudan√ßa | Antes | Depois | Impacto |
|---------|---------|-------|--------|---------|
| `data.py` | num_proc reduzido | 4-8 | 1 | ‚ö° Evita overhead e travamento |
| `data.py` | writer_batch_size | 500/32 | 100 | üíæ Reduz uso de mem√≥ria |
| `data.py` | Cache habilitado | ‚ùå | ‚úÖ | ‚ö° Reutiliza processamento |
| `SynthGenerator.py` | num_proc reduzido | 8 | 1 | ‚ö° Evita overhead |
| `configs` | num_workers | 20 | 4 | ‚ö° Balanceado para 2 GPUs |
| `configs` | batch_size | 1 | 2 | ‚ö° Melhor aproveitamento GPU |
| `configs` | reduce_ratio | 1.0 | 0.5 | üíæ Imagens 50% menores |

### ‚úÖ Otimiza√ß√µes no Trainer

- **Multi-GPU**: DDP Strategy para 2 GPUs
- **Mixed Precision**: 16-bit (economiza ~50% de mem√≥ria)
- **Gradient Accumulation**: 4 steps (batch efetivo = 16)
- **Gradient Clipping**: 1.0 (estabiliza treinamento)
- **Early Stopping**: Patience 10 √©pocas
- **Checkpointing**: Top-2 + √∫ltimo modelo

### üéØ Resultado Esperado

Com estas otimiza√ß√µes:
- ‚úÖ Map n√£o deve mais travar
- ‚úÖ Uso de mem√≥ria otimizado (30GB RAM + 2x GPU)
- ‚úÖ Treinamento ~2-3x mais r√°pido
- ‚úÖ Batch efetivo maior = melhor converg√™ncia

## üì§ Git: Fazer Push das Otimiza√ß√µes

Use esta c√©lula se voc√™ estiver trabalhando localmente e quiser fazer push das altera√ß√µes para o GitHub.

In [None]:
# Configure suas credenciais Git (apenas na primeira vez)
# !git config --global user.email "seu_email@example.com"
# !git config --global user.name "Seu Nome"

# Adicionar todas as altera√ß√µes
!git add data.py SynthGenerator.py train_kaggle.py config/ KAGGLE_OPTIMIZATIONS.md kaggle_training_notebook.ipynb

# Fazer commit
!git commit -m "‚ú® Otimiza√ß√µes para Kaggle: fix Map freeze, multi-GPU, memory optimization"

# Push para o reposit√≥rio
!git push origin main

print("‚úÖ Altera√ß√µes enviadas para o GitHub!")