Skip to content

Phase 3: Modal Labs GPU + PBT hyperparameter search (+20-30% speedup) #295

@gHashTag

Description

@gHashTag

Goal

Миграция тренинга на GPU для 3-5x ускорения + PBT для быстрого поиска гиперпараметров.

Tasks

1. Modal Labs Integration

  • Создать modal_train.py обёртку для HSLM тренинга
  • Docker-native, serverless GPU (A10G/A100)
  • Pay-per-use: платишь только во время тренинга
  • Ожидание: 3-5x raw speedup

2. Гибридная архитектура

  • Railway остаётся для оркестрации (Cloud Dev агенты)
  • Modal Labs для GPU compute
  • tri train --gpu флаг для диспатча на Modal

3. Population-Based Training (PBT)

  • 4-5 параллельных runs с разными гиперпараметрами
  • Каждые N шагов: evaluate, мутация bottom-2 с параметрами top-2
  • Поиск: LR, batch_size, tau_schedule, label_smoothing_eps
  • Ожидание: 30-50% быстрее к оптимуму

4. Альтернативы для оценки

  • Vast.ai: самый дешёвый для длинных runs (спот-рынок)
  • Runpod: Docker-native, низкий overhead

Depends on

Priority

P1 — дни 5-7

Cost

  • Modal A10G: ~$0.60/hr, A100: ~$2.50/hr
  • Railway CPU 32vCPU: ~$0.89/hr
  • Break-even при 3x speedup

Files to modify

src/tri-api/, bin/tri-train, .modal/

Verification

  1. Modal job запускается и выдаёт логи
  2. GPU training 3x+ быстрее CPU baseline
  3. PBT находит лучшие гиперпараметры за 4-5 runs

Metadata

Metadata

Assignees

No one assigned

    Labels

    agent:spawnAuto-spawn agent containerenhancementNew feature or request

    Projects

    Status

    Done

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions