Cuda用カスタムオペレーターについて #1

YsYusaito · 2022-11-04T08:36:01Z

Cuda用のカスタムオペレーターを実装するにはどのようにしたらよろしいでしょうか。

maminus · 2022-11-04T12:13:45Z

カスタムオペレータをCUDAで実装したい、ということですよね？

細かい部分は環境やオペレータの内容に依存して内容が変わってくるので概要だけ以下に記載します。

全体的な考え方

fma_core関数のうち、計算処理は入力Cがあるケースと入力Cがないケースの2か所です
- 関数内の他の処理はONNXRuntimeのデータ型から生ポインタ（ptr_a, ptr_b, ptr_0 など）を取得する処理なのでそのままfma_core関数に残します
- 上記2か所（ループで生ポインタ経由で計算している箇所）をCUDAカーネルにします

YsYusaito · 2022-11-07T04:54:21Z

@maminus さん
はい、カスタムオペレータをCUDAで実装したいと考えております。
ご回答ありがとうございます。
以前よりだいぶ実装方法のイメージがわきました。

カスタムオペレータをCUDA実装に挑戦しようと思います。

maminus · 2023-01-16T12:29:51Z

参考までに #2 でCUDA版カスタムオペレータのサンプルを追加しました。

また、ブログに簡単な解説記事を投稿しています。

こちらのIssueはいったんcloseします。

maminus mentioned this issue Dec 22, 2022

feat: Add a custom operator sample for CUDAExecutionProvider #2

Merged

maminus closed this as completed Jan 16, 2023