PaddlePaddle · sneaxiy · Dec 13, 2022 · Dec 8, 2022 · Dec 12, 2022 · Dec 12, 2022
diff --git a/paddle/fluid/eager/api/manual/fluid_manual/forwards/fused_attention_fwd_func.cc b/paddle/fluid/eager/api/manual/fluid_manual/forwards/fused_attention_fwd_func.cc
@@ -572,15 +572,17 @@ fused_attention_dygraph_function(
       egr::EagerUtils::CheckAndRetainGrad(SoftmaxOut);
       grad_node->SetGradOutMeta(SoftmaxOut, 19);
 
-      auto AttnDropoutOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(
-              p_autograd_AttnDropoutOut);
-      egr::EagerUtils::SetOutRankWithSlot(p_autograd_AttnDropoutOut, 0);
-      egr::EagerUtils::SetHistory(p_autograd_AttnDropoutOut,
-                                  AttnDropoutOut_accumulation_node);
-      AttnDropoutOut_accumulation_node->SetGradInMeta(AttnDropoutOut, 0);
-      egr::EagerUtils::CheckAndRetainGrad(AttnDropoutOut);
-      grad_node->SetGradOutMeta(AttnDropoutOut, 20);
+      if (AttnDropoutOut.initialized()) {
+        auto AttnDropoutOut_accumulation_node =
+            std::make_shared<egr::GradNodeAccumulation>(
+                p_autograd_AttnDropoutOut);
+        egr::EagerUtils::SetOutRankWithSlot(p_autograd_AttnDropoutOut, 0);
+        egr::EagerUtils::SetHistory(p_autograd_AttnDropoutOut,
+                                    AttnDropoutOut_accumulation_node);
+        AttnDropoutOut_accumulation_node->SetGradInMeta(AttnDropoutOut, 0);
+        egr::EagerUtils::CheckAndRetainGrad(AttnDropoutOut);
+        grad_node->SetGradOutMeta(AttnDropoutOut, 20);
+      }
 
       auto FMHAOut_accumulation_node =
           std::make_shared<egr::GradNodeAccumulation>(p_autograd_FMHAOut);

diff --git a/paddle/fluid/eager/api/manual/fluid_manual/nodes/nodes.h b/paddle/fluid/eager/api/manual/fluid_manual/nodes/nodes.h
@@ -476,7 +476,7 @@ class fused_attentionGradNodeCompat : public egr::GradNodeBase {
     SoftmaxOut_ = egr::TensorWrapper(SoftmaxOut, false);
   }
   void SetTensorWrapperSrcMask(const paddle::experimental::Tensor& SrcMask) {
-    SrcMask_ = egr::TensorWrapper(SrcMask, false);
+    SrcMask_ = egr::TensorWrapper(SrcMask, true);
   }
   void SetTensorWrapperSrcMaskOut(
       const paddle::experimental::Tensor& SrcMaskOut) {

diff --git a/paddle/fluid/operators/fused/fmha_ref.h b/paddle/fluid/operators/fused/fmha_ref.h
@@ -104,7 +104,6 @@ class FMHARef {
     T* qk_out_data = qk_out_tensor->data<T>();
     T* qktv_out_data = qktv_out_tensor->data<T>();
     T* softmax_out_data = softmax_out_tensor->data<T>();
-    T* dropout_out_data = dropout_out_tensor->data<T>();
     T* fmha_out_data = fmha_out_tensor->data<T>();
 
     auto out_seq_len = seq_len_;
@@ -221,6 +220,7 @@ class FMHARef {
           dropout_mask_out_tensor,
           dropout_out_tensor,
           false);
+      T* dropout_out_data = dropout_out_tensor->data<T>();
       blas.BatchedGEMM(transA,
                        transB,
                        gemm_m,
@@ -464,8 +464,6 @@ class FMHARef {
 
     const T* softmax_out_data = softmax_out_tensor.data<T>();
     T* softmax_out_grad_data = softmax_out_grad_tensor->data<T>();
-    const T* dropout_out_data = dropout_out_tensor.data<T>();
-    T* dropout_out_grad_data = dropout_out_grad_tensor->data<T>();
     T* qktv_out_grad_data = qktv_out_grad_tensor->data<T>();
 
     // transpose bw
@@ -487,6 +485,7 @@ class FMHARef {
     int64_t stride_b = gemm_k * gemm_n;
     // bw: dy = x^t * dout
     if (dropout_param_.dropout_prob_) {
+      const T* dropout_out_data = dropout_out_tensor.data<T>();
       blas.BatchedGEMM(transA,
                        transB,
                        gemm_m,
@@ -524,6 +523,7 @@ class FMHARef {
     stride_a = gemm_m * gemm_k;
     stride_b = gemm_k * gemm_n;
     if (dropout_param_.dropout_prob_) {
+      T* dropout_out_grad_data = dropout_out_grad_tensor->data<T>();
       blas.BatchedGEMM(transA,
                        transB,
                        gemm_m,

diff --git a/paddle/fluid/operators/fused/fused_attention_op.cc b/paddle/fluid/operators/fused/fused_attention_op.cc
@@ -547,8 +547,10 @@ class FusedAttentionGradOp : public framework::OperatorWithKernel {
                       ctx->GetInputDim("QKOut"));
     ctx->SetOutputDim(framework::GradVarName("SoftmaxOut"),
                       ctx->GetInputDim("SoftmaxOut"));
-    ctx->SetOutputDim(framework::GradVarName("AttnDropoutOut"),
-                      ctx->GetInputDim("AttnDropoutOut"));
+    if (ctx->HasOutput(framework::GradVarName("AttnDropoutOut"))) {
+      ctx->SetOutputDim(framework::GradVarName("AttnDropoutOut"),
+                        ctx->GetInputDim("AttnDropoutOut"));
+    }
 
     if (ctx->HasOutput(framework::GradVarName("SrcMaskOut"))) {
       ctx->SetOutputDim(framework::GradVarName("SrcMaskOut"),
@@ -709,7 +711,8 @@ DECLARE_NO_NEED_BUFFER_VARS_INFERER(FusedAttentionGradNoNeedBufferInferer,
                                     "QKVOut",
                                     "QKOut",
                                     "QKTVOut",
-                                    "OutLinearOut");
+                                    "OutLinearOut",
+                                    "SrcMask");
 
 }  // namespace operators
 }  // namespace paddle

diff --git a/paddle/fluid/operators/fused/fused_attention_op.cu b/paddle/fluid/operators/fused/fused_attention_op.cu
@@ -123,6 +123,10 @@ class FusedAttentionOpKernel : public framework::OpKernel<T> {
     const float ln_epsilon = ctx.Attr<float>("ln_epsilon");
 
     float attn_dropout_rate = ctx.Attr<float>("attn_dropout_rate");
+    const bool has_attn_dropout = (attn_dropout_rate != 0.0f);
+    DropoutParam dropout_param2(ctx, 0);
+    const bool has_dropout = (dropout_param2.dropout_prob != 0.0f);
+
     bool is_test_1 = ctx.Attr<bool>("is_test");
     auto &dropout_implementation_1 =
         ctx.Attr<std::string>("attn_dropout_implementation");
@@ -171,11 +175,16 @@ class FusedAttentionOpKernel : public framework::OpKernel<T> {
                                         src_mask_out->numel() * sizeof(T));
     auto *softmax_out_data = dev_ctx.template Alloc<T>(
         softmax_out, softmax_out->numel() * sizeof(T));
-    auto *attn_dropout_mask_out_data = dev_ctx.template Alloc<uint8_t>(
-        attn_dropout_mask_out,
-        attn_dropout_mask_out->numel() * sizeof(uint8_t));
-    auto *attn_dropout_out_data = dev_ctx.template Alloc<T>(
-        attn_dropout_out, attn_dropout_out->numel() * sizeof(T));
+    auto *attn_dropout_mask_out_data =
+        has_attn_dropout ? dev_ctx.template Alloc<uint8_t>(
+                               attn_dropout_mask_out,
+                               attn_dropout_mask_out->numel() * sizeof(uint8_t))
+                         : nullptr;
+    auto *attn_dropout_out_data =
+        has_attn_dropout
+            ? dev_ctx.template Alloc<T>(attn_dropout_out,
+                                        attn_dropout_out->numel() * sizeof(T))
+            : nullptr;
     auto *fmha_out_data =
         dev_ctx.template Alloc<T>(fmha_out, fmha_out->numel() * sizeof(T));
 
@@ -187,8 +196,11 @@ class FusedAttentionOpKernel : public framework::OpKernel<T> {
         out_linear_out, out_linear_out->numel() * sizeof(T));
 
     // get data ptr for bias+dropout+residual+layernorm
-    auto *dropout_mask_out_data = dev_ctx.template Alloc<uint8_t>(
-        dropout_mask_out, dropout_mask_out->numel() * sizeof(uint8_t));
+    auto *dropout_mask_out_data =
+        has_dropout
+            ? dev_ctx.template Alloc<uint8_t>(
+                  dropout_mask_out, dropout_mask_out->numel() * sizeof(uint8_t))
+            : nullptr;
     auto *final_out_data =
         dev_ctx.template Alloc<T>(out, out->numel() * sizeof(T));
 
@@ -248,7 +260,6 @@ class FusedAttentionOpKernel : public framework::OpKernel<T> {
                                             input_size,
                                             output_size,
                                             false);
-    DropoutParam dropout_param2(ctx, 0);
     FusedDropoutLayerNormHelper<T, uint8_t> fused_dropout_layernorm_helper(
         ctx.cuda_device_context(),
         bsz_seq,
@@ -369,7 +380,11 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
     const float epsilon = ctx.Attr<float>("epsilon");
     const float ln2epsilon = ctx.Attr<float>("ln_epsilon");
 
-    float attn_dropout_prob = ctx.Attr<float>("attn_dropout_rate");
+    const float attn_dropout_prob = ctx.Attr<float>("attn_dropout_rate");
+    const bool has_attn_dropout = (attn_dropout_prob != 0.0f);
+    DropoutParam dropout_param2(ctx, 0);
+    const bool has_dropout = (dropout_param2.dropout_prob != 0.0f);
+
     auto &dev_ctx = ctx.template device_context<phi::GPUContext>();
     bool is_test_1 = ctx.Attr<bool>("is_test");
     auto &dropout_implementation_1 =
@@ -400,7 +415,6 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
     auto *qkv_bias = ctx.Input<phi::DenseTensor>("QKVBias");
     auto *out_linear_weight = ctx.Input<phi::DenseTensor>("OutLinearW");
     auto *out_linear_bias = ctx.Input<phi::DenseTensor>("OutLinearBias");
-    auto *src_mask_data = (src_mask == nullptr ? nullptr : src_mask->data<T>());
     auto *qkv_weight_data = qkv_weight->data<T>();
     auto *qkv_bias_data = (qkv_bias == nullptr) ? nullptr : qkv_bias->data<T>();
     auto *out_linear_weight_data = out_linear_weight->data<T>();
@@ -426,7 +440,8 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
     auto *softmax_out_data = softmax_out->data<T>();
     auto *src_mask_out_data =
         (src_mask == nullptr) ? nullptr : src_mask_out->data<T>();
-    auto *dropout_mask_out_data = dropout_mask_out->data<uint8_t>();
+    auto *dropout_mask_out_data =
+        has_dropout ? dropout_mask_out->data<uint8_t>() : nullptr;
 
     // output's grad
     auto *d_x = ctx.Output<phi::DenseTensor>(framework::GradVarName("X"));
@@ -472,8 +487,11 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
         dev_ctx.template Alloc<T>(d_qk_out, d_qk_out->numel() * sizeof(T));
     auto *d_softmax_out_data = dev_ctx.template Alloc<T>(
         d_softmax_out, d_softmax_out->numel() * sizeof(T));
-    auto *d_attn_dropout_out_data = dev_ctx.template Alloc<T>(
-        d_attn_dropout_out, d_attn_dropout_out->numel() * sizeof(T));
+    auto *d_attn_dropout_out_data =
+        has_attn_dropout
+            ? dev_ctx.template Alloc<T>(d_attn_dropout_out,
+                                        d_attn_dropout_out->numel() * sizeof(T))
+            : nullptr;
     auto *d_src_mask_out_data =
         (src_mask == nullptr)
             ? nullptr
@@ -573,7 +591,6 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
                                             input_size,
                                             output_size,
                                             compute_bias);
-    DropoutParam dropout_param2(ctx, 0);
     FusedDropoutLayerNormHelper<T, uint8_t> fused_dropout_layernorm_helper(
         ctx.cuda_device_context(),
         bsz_seq,
@@ -633,7 +650,7 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
 
     if (qkv_bias != nullptr) {
       fmha_ref_compute.ComputeBackward(*transpose_out_2,
-                                       src_mask,
+                                       has_attn_dropout ? src_mask : nullptr,
                                        *softmax_out,
                                        *attn_dropout_mask_out,
                                        *attn_dropout_out,
@@ -650,7 +667,7 @@ class FusedAttentionGradKernel : public framework::OpKernel<T> {
                                        d_qkv_bias_out);
     } else {
       fmha_ref_compute.ComputeBackward(*transpose_out_2,
-                                       src_mask,
+                                       has_attn_dropout ? src_mask : nullptr,
                                        *softmax_out,
                                        *attn_dropout_mask_out,
                                        *attn_dropout_out,