Add ArlowGPT

##  Add Arlow Model & Tokenizer Support

Adds support for the **Arlow** model and its corresponding **ArlowTokenizer**.

### Features:
- Flash Attention 2 for fast memory-efficient training  
- Rotary Position Embeddings (RoPE) with `rope_theta=100000.0`  
- Grouped Query Attention (GQA)  
- Cross-Attention for future multimodal extensions  
- RMSNorm, SiLU activations, tied embeddings  
- Supports full causal language modeling (ArlowForCausalLM)  
- `ArlowTokenizerFast` (fast tokenizer, vocab size 131072)
- `ArlowTokenizer` (Non fast tokenizer)

### Includes:
- `ArlowConfig`, `ArlowModel`, `ArlowForCausalLM`, `ArlowPreTrainedModel`  
- `ArlowTokenizerFast` as fast tokenizer (`tokenization_arlow_fast.py`)  
- `ArlowTokenizer` as fast tokenizer (`tokenization_arlow.py`)  
- Auto mapping + lazy loading registration  

@ArthurZucker

PR Link: [Here](https://github.com/huggingface/transformers/pull/36899)

### Open source status

- [x] The model implementation is available
- [ ] The model weights are available

### Provide useful links for the implementation

https://github.com/huggingface/transformers/pull/36899

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add ArlowGPT #36988

Add Arlow Model & Tokenizer Support

Features:

Includes:

Open source status

Provide useful links for the implementation

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Add ArlowGPT #36988

Description

Add Arlow Model & Tokenizer Support

Features:

Includes:

Open source status

Provide useful links for the implementation

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions