Skip to content

[v1.0] Testing: A100/H100 Runpod Validation #43

@m96-chan

Description

@m96-chan

概要

TF32 TensorCore GEMMのA100/H100での検証をRunpodで実施するための計画。

背景

  • ローカル環境: RTX 3090 Ti (SM 86, 40 TFLOPS理論値)
  • A100: SM 80, 156 TFLOPS TF32理論値
  • H100: SM 90, 495 TFLOPS TF32理論値 (TF32x3モード)

検証項目

1. A100 検証

  • TF32カーネル動作確認
  • パフォーマンス測定 (目標: 40-60 TFLOPS)
  • 正確性テスト
  • メモリ帯域測定

2. H100 検証 (オプション)

  • TF32x3モード検証
  • パフォーマンス測定 (目標: 90+ TFLOPS)
  • SM 90固有最適化

Runpod設定

GPU: A100 80GB / H100 80GB
Image: nvidia/cuda:12.4-devel-ubuntu22.04
Duration: 2-4 hours

実行スクリプト

# 1. Setup
git clone https://github.com/m96-chan/PyGPUkit
cd PyGPUkit
pip install -e .

# 2. Build native module
cd native && mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

# 3. Run benchmarks
python benchmark_tf32.py
python -m pytest tests/test_tf32.py -v

タイミング

備考

  • A100/H100固有のチューニングはローカル開発後に実施
  • Runpodコストを考慮し、事前にローカルで十分テスト

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions