huggingface · gante · May 9, 2024 · May 9, 2024 · May 9, 2024 · May 9, 2024
diff --git a/src/transformers/pipelines/automatic_speech_recognition.py b/src/transformers/pipelines/automatic_speech_recognition.py
@@ -468,7 +468,6 @@ def _forward(self, model_inputs, return_timestamps=False, **generate_kwargs):
             raise ValueError("segment_size must be used only when stride is None")
 
         if self.type in {"seq2seq", "seq2seq_whisper"}:
-            encoder = self.model.get_encoder()
             # Consume values so we can let extra information flow freely through
             # the pipeline (important for `partial` in microphone)
             if "input_features" in model_inputs:
@@ -500,12 +499,8 @@ def _forward(self, model_inputs, return_timestamps=False, **generate_kwargs):
                         else:
                             generate_kwargs["num_frames"] = segment_size[0] // self.feature_extractor.hop_length
 
-            if self.type == "seq2seq_whisper" and inputs.shape[-1] > self.feature_extractor.nb_max_frames:
-                generate_kwargs["input_features"] = inputs
-            else:
-                generate_kwargs["encoder_outputs"] = encoder(inputs, attention_mask=attention_mask)
-
             tokens = self.model.generate(
+                inputs,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )