huggingface · gante · Mar 27, 2024 · Mar 5, 2024 · Mar 5, 2024 · Mar 5, 2024
diff --git a/src/transformers/generation/__init__.py b/src/transformers/generation/__init__.py
@@ -82,6 +82,7 @@
         "MaxNewTokensCriteria",
         "MaxLengthCriteria",
         "MaxTimeCriteria",
+        "EOSTokenCriteria",
         "StoppingCriteria",
         "StoppingCriteriaList",
         "validate_stopping_criteria",
@@ -218,6 +219,7 @@
             WhisperTimeStampLogitsProcessor,
         )
         from .stopping_criteria import (
+            EOSTokenCriteria,
             MaxLengthCriteria,
             MaxNewTokensCriteria,
             MaxTimeCriteria,

diff --git a/src/transformers/generation/stopping_criteria.py b/src/transformers/generation/stopping_criteria.py
@@ -2,7 +2,7 @@
 import warnings
 from abc import ABC
 from copy import deepcopy
-from typing import Optional
+from typing import List, Optional, Union
 
 import torch
 
@@ -129,6 +129,28 @@ def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwa
         return torch.full((input_ids.shape[0],), is_done, device=input_ids.device, dtype=torch.bool)
 
 
+class EOSTokenCriteria(StoppingCriteria):
+    """
+    This class can be used to stop generation whenever the "end-of-sequence" token in generated.
+    By default, it uses the `EOS` token from model's generation config.
+
+    Args:
+        eos_token_id (`Union[int, List[int]]`):
+            The id of the *end-of-sequence* token. Optionally, use a list to set multiple *end-of-sequence* tokens.
+    """
+
+    def __init__(self, eos_token_id: Union[int, List[int]]):
+        if isinstance(eos_token_id, int):
+            eos_token_id = [eos_token_id]
+        self.eos_token_id = eos_token_id
+
+    @add_start_docstrings(STOPPING_CRITERIA_INPUTS_DOCSTRING)
+    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> torch.BoolTensor:
+        eos_token_ids = torch.tensor(self.eos_token_id, dtype=torch.int64, device=input_ids.device)
+        is_done = (input_ids[:, -1].unsqueeze(1) == eos_token_ids).any(dim=1)
+        return is_done
+
+
 class StoppingCriteriaList(list):
     @add_start_docstrings(STOPPING_CRITERIA_INPUTS_DOCSTRING)
     def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> torch.BoolTensor:

diff --git a/src/transformers/generation/utils.py b/src/transformers/generation/utils.py
@@ -75,6 +75,7 @@
     UnbatchedClassifierFreeGuidanceLogitsProcessor,
 )
 from .stopping_criteria import (
+    EOSTokenCriteria,
     MaxLengthCriteria,
     MaxTimeCriteria,
     StoppingCriteria,
@@ -942,6 +943,8 @@ def _get_stopping_criteria(
             )
         if generation_config.max_time is not None:
             criteria.append(MaxTimeCriteria(max_time=generation_config.max_time))
+        if generation_config.eos_token_id is not None:
+            criteria.append(EOSTokenCriteria(eos_token_id=generation_config.eos_token_id))
         criteria = self._merge_criteria_processor_list(criteria, stopping_criteria)
         return criteria
 
@@ -1922,11 +1925,24 @@ def _contrastive_search(
         logits_warper = logits_warper if logits_warper is not None else LogitsProcessorList()
         stopping_criteria = stopping_criteria if stopping_criteria is not None else StoppingCriteriaList()
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
-        sequential = sequential if sequential is not None else self.generation_config.low_memory
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
-        eos_token_id_tensor = torch.tensor(eos_token_id).to(input_ids.device) if eos_token_id is not None else None
+        sequential = sequential if sequential is not None else self.generation_config.low_memory
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_logits = output_logits if output_logits is not None else self.generation_config.output_logits
         output_attentions = (
@@ -2198,15 +2214,8 @@ def _contrastive_search(
                 outputs, model_kwargs, is_encoder_decoder=self.config.is_encoder_decoder, model_inputs=model_inputs
             )
 
-            # if eos_token was found in one sentence, set sentence to finished
-            if eos_token_id_tensor is not None:
-                unfinished_sequences = unfinished_sequences.mul(
-                    next_tokens.tile(eos_token_id_tensor.shape[0], 1).ne(eos_token_id_tensor.unsqueeze(1)).prod(dim=0)
-                )
-
             # stop when each sentence is finished
             unfinished_sequences = unfinished_sequences & ~stopping_criteria(input_ids, scores)
-
             if unfinished_sequences.max() == 0:
                 this_peer_finished = True
 
@@ -2383,9 +2392,23 @@ def _greedy_search(
             stopping_criteria = validate_stopping_criteria(stopping_criteria, max_length)
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
         eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
-        eos_token_id_tensor = torch.tensor(eos_token_id).to(input_ids.device) if eos_token_id is not None else None
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_attentions = (
             output_attentions if output_attentions is not None else self.generation_config.output_attentions
@@ -2487,14 +2510,7 @@ def _greedy_search(
                 model_inputs=model_inputs,
             )
 
-            # if eos_token was found in one sentence, set sentence to finished
-            if eos_token_id_tensor is not None:
-                unfinished_sequences = unfinished_sequences.mul(
-                    next_tokens.tile(eos_token_id_tensor.shape[0], 1).ne(eos_token_id_tensor.unsqueeze(1)).prod(dim=0)
-                )
-
             unfinished_sequences = unfinished_sequences & ~stopping_criteria(input_ids, scores)
-
             # stop when each sentence is finished
             if unfinished_sequences.max() == 0:
                 this_peer_finished = True
@@ -2680,10 +2696,23 @@ def _sample(
             stopping_criteria = validate_stopping_criteria(stopping_criteria, max_length)
         logits_warper = logits_warper if logits_warper is not None else LogitsProcessorList()
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
-        eos_token_id_tensor = torch.tensor(eos_token_id).to(input_ids.device) if eos_token_id is not None else None
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_logits = output_logits if output_logits is not None else self.generation_config.output_logits
         output_attentions = (
@@ -2786,14 +2815,7 @@ def _sample(
                 outputs, model_kwargs, is_encoder_decoder=self.config.is_encoder_decoder, model_inputs=model_inputs
             )
 
-            # if eos_token was found in one sentence, set sentence to finished
-            if eos_token_id_tensor is not None:
-                unfinished_sequences = unfinished_sequences.mul(
-                    next_tokens.tile(eos_token_id_tensor.shape[0], 1).ne(eos_token_id_tensor.unsqueeze(1)).prod(dim=0)
-                )
-
             unfinished_sequences = unfinished_sequences & ~stopping_criteria(input_ids, scores)
-
             # stop when each sentence is finished
             if unfinished_sequences.max() == 0:
                 this_peer_finished = True
@@ -3007,7 +3029,21 @@ def _beam_search(
         if len(stopping_criteria) == 0:
             warnings.warn("You don't have defined any stopping_criteria, this will likely loop forever", UserWarning)
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
@@ -3401,7 +3437,21 @@ def _beam_sample(
             )
             stopping_criteria = validate_stopping_criteria(stopping_criteria, max_length)
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
@@ -3748,7 +3798,21 @@ def _group_beam_search(
             )
             stopping_criteria = validate_stopping_criteria(stopping_criteria, max_length)
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
@@ -4159,7 +4223,21 @@ def _constrained_beam_search(
         if len(stopping_criteria) == 0:
             warnings.warn("You don't have defined any stopping_criteria, this will likely loop forever", UserWarning)
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
-        eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
@@ -4502,11 +4580,23 @@ def _assisted_decoding(
         stopping_criteria = stopping_criteria if stopping_criteria is not None else StoppingCriteriaList()
         pad_token_id = pad_token_id if pad_token_id is not None else self.generation_config.pad_token_id
         eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
-        if eos_token_id is not None and pad_token_id is None:
-            raise ValueError("If `eos_token_id` is defined, make sure that `pad_token_id` is defined.")
+        if eos_token_id is not None:
+            warnings.warn(
+                "`eos_token_id` is deprecated in this function and will be removed in v4.41, use"
+                " `stopping_criteria=StoppingCriteriaList([EOSTokenCriteria(eos_token_id=eos_token_id)])` instead.",
+                FutureWarning,
+            )
+            stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+        else:
+            eos_token_id = [
+                criteria.eos_token_id for criteria in stopping_criteria if hasattr(criteria, "eos_token_id")
+            ]
+            if not eos_token_id and self.generation_config.eos_token_id:
+                stopping_criteria.append(EOSTokenCriteria(eos_token_id=eos_token_id))
+                eos_token_id = self.generation_config.eos_token_id
+
         if isinstance(eos_token_id, int):
             eos_token_id = [eos_token_id]
-        eos_token_id_tensor = torch.tensor(eos_token_id).to(input_ids.device) if eos_token_id is not None else None
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_logits = output_logits if output_logits is not None else self.generation_config.output_logits
         output_attentions = (
@@ -4562,13 +4652,7 @@ def _assisted_decoding(
                 candidate_logits = candidate_logits.to(self.device)
 
             candidate_length = candidate_input_ids.shape[1] - input_ids.shape[1]
-            last_assistant_token_is_eos = (
-                ~candidate_input_ids[:, -1]
-                .tile(eos_token_id_tensor.shape[0], 1)
-                .ne(eos_token_id_tensor.unsqueeze(1))
-                .prod(dim=0)
-                .bool()
-            )
+            last_assistant_token_is_eos = stopping_criteria[-1](candidate_input_ids, None)
 
             # 2. Use the original model to obtain the next token logits given the candidate sequence. We obtain
             # `candidate_length + 1` relevant logits from this process: in the event that all candidates are correct,
@@ -4701,17 +4785,7 @@ def _assisted_decoding(
                 outputs, model_kwargs, is_encoder_decoder=self.config.is_encoder_decoder, model_inputs=model_inputs
             )
 
-            # if eos_token was found in one sentence, set sentence to finished
-            if eos_token_id_tensor is not None:
-                unfinished_sequences = unfinished_sequences.mul(
-                    input_ids[:, -1]
-                    .tile(eos_token_id_tensor.shape[0], 1)
-                    .ne(eos_token_id_tensor.unsqueeze(1))
-                    .prod(dim=0)
-                )
-
             unfinished_sequences = unfinished_sequences & ~stopping_criteria(input_ids, scores)
-
             # stop when each sentence is finished
             if unfinished_sequences.max() == 0:
                 this_peer_finished = True

diff --git a/tests/generation/test_stopping_criteria.py b/tests/generation/test_stopping_criteria.py
@@ -26,6 +26,7 @@
     import torch
 
     from transformers.generation import (
+        EOSTokenCriteria,
         MaxLengthCriteria,
         MaxNewTokensCriteria,
         MaxTimeCriteria,
@@ -98,6 +99,21 @@ def test_max_time_criteria(self):
         criteria = MaxTimeCriteria(max_time=0.1, initial_timestamp=time.time() - 0.2)
         self.assertTrue(all(criteria(input_ids, scores)))
 
+    def test_eos_token_criteria(self):
+        criteria = EOSTokenCriteria(eos_token_id=0)
+
+        input_ids, scores = self._get_tensors(5)
+        input_ids[:, -1] = 0
+        self.assertTrue(all(criteria(input_ids, scores)))
+
+        input_ids, scores = self._get_tensors(5)
+        input_ids[:2, -1] = 0
+        self.assertListEqual(criteria(input_ids, scores).tolist(), [True, True, False])
+
+        input_ids, scores = self._get_tensors(5)
+        input_ids[:, -1] = 1
+        self.assertListEqual(criteria(input_ids, scores).tolist(), [False, False, False])
+
     def test_validate_stopping_criteria(self):
         validate_stopping_criteria(StoppingCriteriaList([MaxLengthCriteria(10)]), 10)