[v1.0] Testing: A100/H100 Runpod Validation

## 概要

TF32 TensorCore GEMMのA100/H100での検証をRunpodで実施するための計画。

## 背景

- ローカル環境: RTX 3090 Ti (SM 86, 40 TFLOPS理論値)
- A100: SM 80, 156 TFLOPS TF32理論値
- H100: SM 90, 495 TFLOPS TF32理論値 (TF32x3モード)

## 検証項目

### 1. A100 検証
- [ ] TF32カーネル動作確認
- [ ] パフォーマンス測定 (目標: 40-60 TFLOPS)
- [ ] 正確性テスト
- [ ] メモリ帯域測定

### 2. H100 検証 (オプション)
- [ ] TF32x3モード検証
- [ ] パフォーマンス測定 (目標: 90+ TFLOPS)
- [ ] SM 90固有最適化

## Runpod設定

```
GPU: A100 80GB / H100 80GB
Image: nvidia/cuda:12.4-devel-ubuntu22.04
Duration: 2-4 hours
```

## 実行スクリプト

```bash
# 1. Setup
git clone https://github.com/m96-chan/PyGPUkit
cd PyGPUkit
pip install -e .

# 2. Build native module
cd native && mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
make -j$(nproc)

# 3. Run benchmarks
python benchmark_tf32.py
python -m pytest tests/test_tf32.py -v
```

## タイミング

- RTX 3090 Tiでの開発完了後に実施
- Issue #41 の Step 1.4 完了後

## 備考

- A100/H100固有のチューニングはローカル開発後に実施
- Runpodコストを考慮し、事前にローカルで十分テスト

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[v1.0] Testing: A100/H100 Runpod Validation #43

概要

背景

検証項目

1. A100 検証

2. H100 検証 (オプション)

Runpod設定

実行スクリプト

タイミング

備考

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[v1.0] Testing: A100/H100 Runpod Validation #43

Description

概要

背景

検証項目

1. A100 検証

2. H100 検証 (オプション)

Runpod設定

実行スクリプト

タイミング

備考

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions