PaddlePaddle · gongel · Jan 16, 2023 · Jan 16, 2023
diff --git a/paddlenlp/transformers/ernie_m/configuration.py b/paddlenlp/transformers/ernie_m/configuration.py
@@ -160,7 +160,7 @@ def __init__(
         max_position_embeddings: int = 514,
         type_vocab_size: int = 16,
         initializer_range: float = 0.02,
-        pad_token_id: int = 0,
+        pad_token_id: int = 1,
         **kwargs
     ):
         super().__init__(pad_token_id=pad_token_id, **kwargs)

diff --git a/paddlenlp/transformers/ernie_m/modeling.py b/paddlenlp/transformers/ernie_m/modeling.py
@@ -278,7 +278,7 @@ def forward(
 
         if attention_mask is None:
             attention_mask = paddle.unsqueeze(
-                (input_ids == 0).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]
+                (input_ids == self.pad_token_id).astype(self.pooler.dense.weight.dtype) * -1e4, axis=[1, 2]
             )
             if past_key_values is not None:
                 batch_size = past_key_values[0][0].shape[0]