diff --git a/torch/csrc/jit/codegen/cuda/runtime/fused_reduction.cu b/torch/csrc/jit/codegen/cuda/runtime/fused_reduction.cu
index 38a3ba3f5368..74e364ae7b4a 100644
--- a/torch/csrc/jit/codegen/cuda/runtime/fused_reduction.cu
+++ b/torch/csrc/jit/codegen/cuda/runtime/fused_reduction.cu
@@ -640,7 +640,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduce<Func, Types...>(
+    reduce(
         RefTuple<Types...> out,
         const ConstRefTuple<Types...>& inp,
         VolatilePtrTuple<Types...> global_work_buffer,
@@ -1056,7 +1056,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduce<Func, Types...>(
+    reduce(
         RefTuple<Types...> out,
         const ConstRefTuple<Types...>& inp,
         VolatilePtrTuple<Types...> global_work_buffer,
@@ -1113,7 +1113,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduceGroup<DataTypes..., Funcs..., BoolTypes...>(
+    reduceGroup(
         RefTuple<DataTypes...> out,
         const ConstRefTuple<DataTypes...>& inp,
         VolatilePtrTuple<DataTypes...> global_work_buffer,
@@ -1298,7 +1298,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduceGroup<DataTypes..., Funcs..., BoolTypes...>(
+    reduceGroup(
         RefTuple<DataTypes...> out,
         const ConstRefTuple<DataTypes...>& inp,
         VolatilePtrTuple<DataTypes...> global_work_buffer,
@@ -1358,7 +1358,7 @@ __device__ __inline__ LocalTuple<DataTypes...> ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduceGroupBlock<BLOCK_BROADCAST, DataTypes..., Funcs..., BoolTypes...>(
+    reduceGroupBlock(
         const ConstRefTuple<DataTypes...>& inp,
         const LocalTuple<DataTypes...>& init_val,
         void* shared_mem,
@@ -1434,7 +1434,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    reduceGroupLastBlock<DataTypes..., Funcs..., BoolTypes...>(
+    reduceGroupLastBlock(
         RefTuple<DataTypes...>& out,
         const VolatilePtrTuple<DataTypes...>& global_work_buffer,
         const LocalTuple<DataTypes...>& init_val,
diff --git a/torch/csrc/jit/codegen/cuda/runtime/fused_welford_impl.cu b/torch/csrc/jit/codegen/cuda/runtime/fused_welford_impl.cu
index 8dd9bab51621..8603087e8453 100644
--- a/torch/csrc/jit/codegen/cuda/runtime/fused_welford_impl.cu
+++ b/torch/csrc/jit/codegen/cuda/runtime/fused_welford_impl.cu
@@ -265,7 +265,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    welfordGroup<NumArgs, DataType, IndexType>(
+    welfordGroup(
         typename MakeRefTuple<NumArgs, DataType>::type out_avg,
         typename MakeRefTuple<NumArgs, DataType>::type out_var,
         typename MakeRefTuple<NumArgs, IndexType>::type out_N,
@@ -465,7 +465,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    welfordGroupBlock<BLOCK_BROADCAST, NumVals, DataType, IndexType>(
+    welfordGroupBlock(
         LocalWelfordTripletTuple<NumVals, DataType, IndexType>& block_result,
         const ConstRefWelfordTripletTuple<NumVals, DataType, IndexType>& inp,
         PtrTuple<DataType, DataType, IndexType> shared_buf,
@@ -534,7 +534,7 @@ __device__ __inline__ void ParallelReduce<
     Z_THREAD,
     PERSISTENT_REDUCTION,
     BROADCAST>::
-    welfordGroupLastBlock<NumVals, DataType, IndexType>(
+    welfordGroupLastBlock(
         RefWelfordTripletTuple<NumVals, DataType, IndexType>& out,
         const VolatilePtrWelfordTripletTuple<NumVals, DataType, IndexType>&
             global_work_buffer,