概要
TF32 TensorCore GEMMのA100/H100での検証をRunpodで実施するための計画。
背景
- ローカル環境: RTX 3090 Ti (SM 86, 40 TFLOPS理論値)
- A100: SM 80, 156 TFLOPS TF32理論値
- H100: SM 90, 495 TFLOPS TF32理論値 (TF32x3モード)
検証項目
1. A100 検証
2. H100 検証 (オプション)
Runpod設定
GPU: A100 80GB / H100 80GB
Image: nvidia/cuda:12.4-devel-ubuntu22.04
Duration: 2-4 hours
実行スクリプト
# 1. Setup
git clone https://github.com/m96-chan/PyGPUkit
cd PyGPUkit
pip install -e .
# 2. Build native module
cd native && mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)
# 3. Run benchmarks
python benchmark_tf32.py
python -m pytest tests/test_tf32.py -v
タイミング
備考
- A100/H100固有のチューニングはローカル開発後に実施
- Runpodコストを考慮し、事前にローカルで十分テスト
概要
TF32 TensorCore GEMMのA100/H100での検証をRunpodで実施するための計画。
背景
検証項目
1. A100 検証
2. H100 検証 (オプション)
Runpod設定
実行スクリプト
タイミング
備考