d-li14 · shikishima-TasakiLab · Jun 12, 2021 · Jun 13, 2021 · Jun 13, 2021 · Jun 27, 2021
diff --git a/include/autocast.h b/include/autocast.h
diff --git a/include/involution2d_cuda.cuh b/include/involution2d_cuda.cuh
@@ -7,7 +7,7 @@
 namespace involution {
 namespace cuda {
 
-#define CUDA_MAX_THREADS 512u
+#define CUDA_MAX_THREADS 1024u
 
 #define CUDA_KERNEL_LOOP(i, n) \
     for (int64_t i = blockIdx.x * blockDim.x + threadIdx.x; i < (n); i += blockDim.x * gridDim.x)

diff --git a/include/involution2d_wrapper.h b/include/involution2d_wrapper.h
@@ -1,9 +1,9 @@
 #pragma once
 
 #include <ATen/core/dispatch/Dispatcher.h>
+#include <ATen/autocast_mode.h>
 #include <torch/csrc/autograd/custom_function.h>
 
-#include "autocast.h"
 #include "involution2d_cpu.h"
 
 #ifdef USE_CUDA
@@ -34,7 +34,8 @@ at::Tensor involution2d_autocast(
     const std::vector<int64_t>& dilation
 ) {
     c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
-    return involution2d(autocast::_cast(at::kFloat, input), autocast::_cast(at::kFloat, weight), stride, padding, dilation)
+    auto exec_type = at::autocast::promote_type(at::kFloat, input, weight);
+    return involution2d(at::autocast::cached_cast(exec_type, input), at::autocast::cached_cast(exec_type, weight), stride, padding, dilation)
         .to(input.scalar_type());
 }
 
@@ -208,6 +209,24 @@ at::Tensor involution2d_autograd(
     return Involution2dFunctionCUDA::apply(input, weight, kernel_size, stride, padding, dilation, groups)[0];
 }
 
+at::Tensor involution2d_autocast(
+    const torch::autograd::Variable& input,
+    const torch::autograd::Variable& weight,
+    const std::vector<int64_t>& kernel_size,
+    const std::vector<int64_t>& stride,
+    const std::vector<int64_t>& padding,
+    const std::vector<int64_t>& dilation,
+    const int64_t groups
+) {
+    c10::impl::ExcludeDispatchKeyGuard no_autocast(c10::DispatchKey::Autocast);
+    auto exec_type = at::autocast::promote_type(at::kFloat, input, weight);
+    return involution2d_autograd(
+        at::autocast::cached_cast(exec_type, input),
+        at::autocast::cached_cast(exec_type, weight),
+        kernel_size, stride, padding, dilation, groups
+    );
+}
+
 } // namespace cuda
 
 #endif

diff --git a/src/pytorch_wrapper.cpp b/src/pytorch_wrapper.cpp
@@ -24,10 +24,6 @@ TORCH_LIBRARY_IMPL(involution, CUDA, m) {
 }
 #endif
 
-// TORCH_LIBRARY_IMPL(involution, Autocast, m) {
-//     m.impl("involution2d", involution2d_autocast);
-// }
-
 TORCH_LIBRARY_IMPL(involution, AutogradCPU, m) {
     m.impl("involution2d", involution::cpu::involution2d_autograd);
 }
@@ -36,4 +32,8 @@ TORCH_LIBRARY_IMPL(involution, AutogradCPU, m) {
 TORCH_LIBRARY_IMPL(involution, AutogradCUDA, m) {
     m.impl("involution2d", involution::cuda::involution2d_autograd);
 }
+
+TORCH_LIBRARY_IMPL(involution, Autocast, m) {
+    m.impl("involution2d", involution::cuda::involution2d_autocast);
+}
 #endif