huggingface
diff --git a/‎examples/modular-transformers/modeling_dummy.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/modular-transformers/modeling_dummy.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/modular-transformers/modeling_multimodal1.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/modular-transformers/modeling_multimodal1.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/aria/modeling_aria.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/aria/modeling_aria.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/biogpt/modeling_biogpt.py‎
Lines changed: 3 additions & 3 deletions b/‎src/transformers/models/biogpt/modeling_biogpt.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/transformers/models/biogpt/modular_biogpt.py‎
Lines changed: 3 additions & 3 deletions b/‎src/transformers/models/biogpt/modular_biogpt.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎src/transformers/models/bitnet/modeling_bitnet.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/bitnet/modeling_bitnet.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/cohere/modeling_cohere.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/cohere/modeling_cohere.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/cohere2/modeling_cohere2.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/cohere2/modeling_cohere2.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/cohere2/modular_cohere2.py‎
Lines changed: 2 additions & 2 deletions b/‎src/transformers/models/cohere2/modular_cohere2.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/transformers/models/csm/modeling_csm.py‎
Lines changed: 3 additions & 3 deletions b/‎src/transformers/models/csm/modeling_csm.py‎
Lines changed: 3 additions & 3 deletions
@@ -477,7 +477,7 @@ def forward(
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -539,7 +539,7 @@ def forward(
                 use_cache=use_cache,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -477,7 +477,7 @@ def forward(
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -539,7 +539,7 @@ def forward(
                 use_cache=use_cache,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -754,7 +754,7 @@ def forward(
         inputs_embeds: Optional[torch.FloatTensor] = None,
         cache_position: Optional[torch.LongTensor] = None,
         use_cache: Optional[bool] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
@@ -790,7 +790,7 @@ def forward(
                 past_key_value=past_key_values,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -315,7 +315,7 @@ def forward(
             output_attentions=output_attentions,
             position_ids=position_ids,
             cache_position=cache_position,
-            **flash_attn_kwargs,
+            **kwargs,
         )
         hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
         hidden_states = residual + hidden_states
@@ -648,7 +648,7 @@ def forward(
 
             if self.gradient_checkpointing and self.training:
                 layer_outputs = self._gradient_checkpointing_func(
-                    partial(decoder_layer.__call__, **flash_attn_kwargs),
+                    partial(decoder_layer.__call__, **kwargs),
                     hidden_states,
                     causal_mask,
                     head_mask[idx] if head_mask is not None else None,
@@ -668,7 +668,7 @@ def forward(
                     use_cache=use_cache,
                     position_ids=position_ids,
                     cache_position=cache_position,
-                    **flash_attn_kwargs,
+                    **kwargs,
                 )
 
             hidden_states = layer_outputs[0]
 
@@ -142,7 +142,7 @@ def forward(
             output_attentions=output_attentions,
             position_ids=position_ids,
             cache_position=cache_position,
-            **flash_attn_kwargs,
+            **kwargs,
         )
         hidden_states = nn.functional.dropout(hidden_states, p=self.dropout, training=self.training)
         hidden_states = residual + hidden_states
@@ -475,7 +475,7 @@ def forward(
 
             if self.gradient_checkpointing and self.training:
                 layer_outputs = self._gradient_checkpointing_func(
-                    partial(decoder_layer.__call__, **flash_attn_kwargs),
+                    partial(decoder_layer.__call__, **kwargs),
                     hidden_states,
                     causal_mask,
                     head_mask[idx] if head_mask is not None else None,
@@ -495,7 +495,7 @@ def forward(
                     use_cache=use_cache,
                     position_ids=position_ids,
                     cache_position=cache_position,
-                    **flash_attn_kwargs,
+                    **kwargs,
                 )
 
             hidden_states = layer_outputs[0]
 
@@ -368,7 +368,7 @@ def forward(
         inputs_embeds: Optional[torch.FloatTensor] = None,
         cache_position: Optional[torch.LongTensor] = None,
         use_cache: Optional[bool] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
@@ -404,7 +404,7 @@ def forward(
                 past_key_value=past_key_values,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -410,7 +410,7 @@ def forward(
         inputs_embeds: Optional[torch.FloatTensor] = None,
         cache_position: Optional[torch.LongTensor] = None,
         use_cache: Optional[bool] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
@@ -446,7 +446,7 @@ def forward(
                 past_key_value=past_key_values,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -394,7 +394,7 @@ def forward(
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -462,7 +462,7 @@ def forward(
                 output_attentions=output_attentions,
                 use_cache=use_cache,
                 cache_position=cache_position,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -415,7 +415,7 @@ def forward(
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
         output_hidden_states = (
@@ -483,7 +483,7 @@ def forward(
                 output_attentions=output_attentions,
                 use_cache=use_cache,
                 cache_position=cache_position,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
 
@@ -529,7 +529,7 @@ def forward(
                 use_cache=use_cache,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]
@@ -759,7 +759,7 @@ def forward(
         inputs_embeds: Optional[torch.FloatTensor] = None,
         cache_position: Optional[torch.LongTensor] = None,
         use_cache: Optional[bool] = None,
-        **flash_attn_kwargs: Unpack[FlashAttentionKwargs],
+        **kwargs: Unpack[FlashAttentionKwargs],
     ) -> BaseModelOutputWithPast:
         r"""
         input_ids (`torch.LongTensor` of shape `(batch_size, sequence_length, num_codebooks) or (batch_size, sequence_length)`):
@@ -807,7 +807,7 @@ def forward(
                 past_key_value=past_key_values,
                 cache_position=cache_position,
                 position_embeddings=position_embeddings,
-                **flash_attn_kwargs,
+                **kwargs,
             )
 
             hidden_states = layer_outputs[0]