Goal
Миграция тренинга на GPU для 3-5x ускорения + PBT для быстрого поиска гиперпараметров.
Tasks
1. Modal Labs Integration
- Создать
modal_train.py обёртку для HSLM тренинга
- Docker-native, serverless GPU (A10G/A100)
- Pay-per-use: платишь только во время тренинга
- Ожидание: 3-5x raw speedup
2. Гибридная архитектура
- Railway остаётся для оркестрации (Cloud Dev агенты)
- Modal Labs для GPU compute
tri train --gpu флаг для диспатча на Modal
3. Population-Based Training (PBT)
- 4-5 параллельных runs с разными гиперпараметрами
- Каждые N шагов: evaluate, мутация bottom-2 с параметрами top-2
- Поиск: LR, batch_size, tau_schedule, label_smoothing_eps
- Ожидание: 30-50% быстрее к оптимуму
4. Альтернативы для оценки
- Vast.ai: самый дешёвый для длинных runs (спот-рынок)
- Runpod: Docker-native, низкий overhead
Depends on
Priority
P1 — дни 5-7
Cost
- Modal A10G: ~$0.60/hr, A100: ~$2.50/hr
- Railway CPU 32vCPU: ~$0.89/hr
- Break-even при 3x speedup
Files to modify
src/tri-api/, bin/tri-train, .modal/
Verification
- Modal job запускается и выдаёт логи
- GPU training 3x+ быстрее CPU baseline
- PBT находит лучшие гиперпараметры за 4-5 runs
Goal
Миграция тренинга на GPU для 3-5x ускорения + PBT для быстрого поиска гиперпараметров.
Tasks
1. Modal Labs Integration
modal_train.pyобёртку для HSLM тренинга2. Гибридная архитектура
tri train --gpuфлаг для диспатча на Modal3. Population-Based Training (PBT)
4. Альтернативы для оценки
Depends on
Priority
P1 — дни 5-7
Cost
Files to modify
src/tri-api/,bin/tri-train,.modal/Verification